實力打臉!Adobe用競品Midjourney圖片訓練Firefly。內部員工批評不斷終爆料 原創
撰稿 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
AIGC圈太魔幻了,啪啪打臉的時刻總是在路上!
開源的模型會變閉源,比如被認為是開源獨角獸的Mistral,開始考慮“使命與商業利益之間的平衡”,推出閉源的旗艦大模型Large。當然,上一次這么說的還要數OpenAI。
不過在外界看來,理由就是四個字:我、要、賺、錢!
再比如,一開始攻擊谷歌搜索廣告泛濫的AI搜索寵兒Perplexity AI也宣布了自己網站開始賣起了廣告位,同樣一改對于“恰飯”廣告的態度:只要廣告足夠好,就不影響用戶體驗。
今天同樣被網友們吃到“打臉”瓜的會是誰呢?嗯,這次是Adobe。
1.質疑Midjourney,理解Midjourney,成為Midjourney?
當Adobe公司去年發布其圖像生成軟件Firefly時,該公司表示,這款人工智能模型主要是在Adobe Stock上訓練的,其數據庫包含數億張授權圖像。Adobe公司稱,Firefly是一個“商業上安全”的替代方案,可以替代像Midjourney這樣的競爭對手,后者是通過從互聯網上抓取圖片來學習的。
此外,Adobe公司曾就競爭對手的數據收集做法提出批評。該公司首席戰略官斯科特·貝爾斯基(Scott Belsky)去年表示,其他模型都是建立在“公開抓取”的數據之上的。
Adobe公司在其網站上表示,Firefly比OpenAI的類似模型更勝一籌的原因之一是,它尊重創意社群,只使用有授權或可免費獲取的數據進行訓練。而在去年3月的一篇題為《生成式人工智能時代的負責任創新》的博客文章中,法務總監達娜·拉奧(Dana Rao)指出,生成式AI“的好壞取決于其訓練數據的質量”。
她寫道:“經過精心策劃、多樣化的數據集訓練,你的模型在商業安全和倫理結果方面自然具有競爭優勢。”同時,她指出Adobe公司對Firefly的訓練是基于AdobeStock圖像、有授權的內容和版權已過期的公有領域內容。
Adobe公司高級副總裁阿什利·斯蒂爾(Ashley Still)在本月初的彭博情報活動中表示:“當我們發布Firefly時,我們的企業客戶找到我們說,‘我們很喜歡你們在做的事情,我們真的很感激你們沒有在開放的互聯網上竊取我們所有的知識產權。”
然而,在多次演講和公開文章中,Adobe從未明確表示其模型實際上使用了來自這些競爭對手的一些圖像,來作為其比競爭對手更安全的原因。
人設崩塌往往來自于內部消息。根據最新的爆料,幕后情況是,Adobe也在一定程度上依賴AI生成的內容來訓練Firefly,包括從那些AI競爭對手那里獲取的內容。
圖片
彭博社報道:
Adobe’s 'Ethical' AI Tools Used Rival AI Images for Training
2.內部員工實在看不下去,爆料使用競品素材來訓練
AI生成的內容之所以會進入Firefly的訓練集,是因為創作者被允許將數百萬張使用其他公司技術的圖像提交到Adobe Stock市場。Adobe公司代表米歇爾·哈爾霍夫(Michelle Haarhoff)去年9月在為攝影師和藝術家設立的Discord群組中寫道:“Adobe Stock收藏中的生成式AI圖像是Firefly訓練數據集的一小部分。”
Adobe公司表示,用于訓練其AI工具的圖像中,只有相對較小的一部分(約5%)是由其他AI平臺生成的。公司發言人表示:“提交給Adobe Stock的每一張圖像,包括一小部分用AI生成的圖像,都會經 過嚴格的審核過程,以確保其中不包含知識產權、商標、可識別的角色或標志,也不包含藝術家的名字。”
公司內部對該做法的批評聲不斷:據多位熟悉Firefly開發過程的員工(因討論是私密的,故要求匿名)表示,自從Firefly誕生之初,公司內部就一直存在關于將AI生成的圖像納入模型的道德和視覺效果的爭議。有些人建議逐步減少系統對生成圖像的使用,但有知情人表示,目前尚無此類計劃。
Adobe Stock 添加了許多AI生成的圖像
然而,Adobe公司從未公開明確表示,Firefly部分使用了競爭對手工具中據稱不太道德的圖像進行訓練。不過,根據彭博社查看的消息,Adobe公司至少在兩個由公司運營的Discord在線討論組中披露了這些細節——一個用于Adobe Stock,另一個專門用于Firefly。
3.用戶實錘:慚愧,被用于訓練的AI圖片的確獲得了獎金
2023年3月,Adobe公司發布了Firefly的“測試版”產品。當月,與Adobe Stock社群合作的勞爾·塞羅恩(Raúl Cerón)在Discord上發帖稱,公司不打算使用生成的圖像來訓練即將發布的Firefly公開版。
“一旦我們結束測試并正式上線,我們將為它建立一個新的訓練數據庫,其中將不包含生成式AI的內容。” 他在6月的一篇帖子中寫道。
當Adobe于9月13日宣布Firefly公開發布時,該公司還向“其內容被用于訓練首個商業版Firefly模型”的Adobe Stock貢獻者支付了特別的“Firefly獎金”。根據與Adobe Stock社群合作的馬特·海沃德(Mat Hayward)在Discord上的一條消息,那些使用生成式AI的貢獻者也在獲得獎金的人之列。
海沃德寫道,Adobe Stock中的AI生成圖像“增強了我們的數據集訓練模型,我們決定在商業發布的Firefly版本中包含這些內容。”
這一點,也被用戶實際證明了。一位用戶在Adobe上傳Midjourney圖像,結果反手就被用來訓練,而且還收到了一筆獎金。
布萊恩·彭尼(Brian Penny)是一位作家和stock圖像貢獻者,他向Adobe Stock提交了數千張AI生成的圖像——其中大多數是用Midjourney制作的。在收到獎金時,他感到十分驚訝,因為他認為自己作為AI貢獻者是沒有資格獲得獎金的。盡管獲得了經濟收益,但彭尼認為讓Firefly訓練包含像他這樣貢獻的內容是一個糟糕的決定,并表示公司應該更加坦率地說明它是如何訓練這款圖像創建軟件的。
他說:“他們需要秉持道德原則,需要更加透明,需要做得更多。”
自2022年底正式接受AI內容以來,Adobe Stock的素材庫蓬勃發展。如今,大約有5700萬張圖像,即總數的約14%,被標記為AI生成的圖像。提交AI圖像的藝術家必須指明該作品是使用技術創建的,但他們不需要說明使用的是哪種工具。為了喂養其AI訓練集,Adobe還提出為貢獻者提供報酬,以提交大量用于AI訓練的照片——例如香蕉或旗幟的圖像。
4.究竟什么是道德/負責任的AI?凌亂了
要訓練支撐流行內容創作產品的AI模型,需要海量的數據,同時,AI技術公司在此過程中使用版權材料的行為也受到了越來越多的審視。
Midjourney、Dall-E的制作者OpenAI以及Stable Diffusion的制作者Stability AI等公司都是利用從互聯網上抓取的圖片數據集來構建他們的媒體生成模型,這種做法引發了眾多藝術家的憤怒和訴訟。
一位研究法律和倫理影響的助理教授認為,“這顯示了負責任AI定義的模糊性,也說明了擺脫生成內容帶來的社會、文化和倫理問題(如果不是法律問題的話)的困難。”
Adobe公司決定使用公司擁有版權或屬于公共領域的內容來構建Firefly,很明顯,是為了在快速增長的生成式人工智能市場中,使其AI圖像工具脫穎而出。
然而,該公司卻將其宣傳為更道德、更合法的選擇,適合那些希望通過少量詞匯生成圖像但又擔心潛在版權問題的客戶。不過,Adobe公司還表示,它不會基于其他人的知識產權或品牌來生成內容,也會避免產生有害圖像。
哈佛大學教授麗貝卡·塔什內特(Rebecca Tushnet)專注于版權和廣告法領域。她表示,用AI生成的內容進行訓練可能不會讓Adobe的Firefly圖像生成器在商業上變得不那么安全,只要公司不誤導消費者,它就不需要說明其訓練內容。但是,用像Midjourney創建的圖像這樣的AI圖像進行訓練,會破壞Firefly與競爭對手服務不同的理念。
“Adobe基本上想將自己定位為更高級別的替代品,但它也想要非常便宜的輸入,而AI是一個獲取便宜輸入的非常好的方式,”她說。
所以,到底什么才是道德的、負責任的AI,相信不少人都凌亂了。
本文轉載自 ??51CTO技術棧????,作者:言征
