撰稿 | 清竹
出品 | 51CTO技術棧(微信號:blog51cto)
大模型的浪潮滾滾向前,總免不了鬧劇一幕幕上演。
前有字節跳動被 OpenAI封號的羅生門,接著谷歌Gemini自曝中文用百度文心一言訓練看呆網友,這次,大模型又在數據集上翻車了!
斯坦福大學近日針對開源模型訓練數據集 LAION-5B 展開研究,發現該數據集中包含數百張已知的兒童性虐待材料 (CSAM) 圖像,這些圖像用于訓練流行的 AI 文本到圖像生成模型,例如穩定擴散模型。
這里提到的利用 LAION-5B 訓練自家模型的公司,正包括當紅的 Stability AI 和 Google 。
事情一出,Stability AI 迅速撇清關系:“Stable Diffusion 模型雖然使用 LAION-5B 進行訓練,但采用的是經過篩選及微調過的訓練集版本,因此并不會影響模型輸出結果”。谷歌方面也表示,其 Imagen 模型的迭代并沒有使用 LAION 數據集。
1、大模型開源數據集“塌房”
近日斯坦福大學互聯網觀察站的一份報告顯示,大型開源人工智能數據集 LAION-5B 已用于訓練流行的人工智能文本到圖像生成器,例如 Stable Diffusion 和 Google 的 Imagen,該數據集包含至少 1,008 個兒童性虐待材料實例。
報告稱,LAION-5B 數據集于 2022 年 3 月發布,包含來自互聯網的超過 50 億張圖像和相關說明文字,還可能包括數千條疑似兒童性虐待材料(CSAM)。該報告警告說,數據集中的 CSAM 材料可以使基于這些數據構建的人工智能產品輸出新的且可能真實的虐待兒童內容。
早在3個月前,研究人員就著手梳理 LAION 數據集,通過查看哈希值或圖像的標識符,調查其中存在多少兒童性虐待材料 (CSAM)。調查表明,該數據集包括從各種來源抓取 CSAM,其中至少包含 1,679 張從社交媒體帖子和流行成人網站上抓取的非法圖像。
目前研究人員已將出現問題的圖像 URL 上報美國國家失蹤和受虐兒童中心(NCMEC) 和加拿大兒童保護中心(C3P)。這些機構主要使用 PhotoDNA 等哈希工具進行檢測,將圖像的指紋與其數據庫進行匹配。
研究人員表示,他們不會查看被濫用的內容,并且會向受虐兒童中心(NCMEC )報告匹配結果,必要時由加拿大兒童保護中心進行驗證。
2、LAION:數據集沒問題,是你的搜索方法有問題
針對此次事件,LAION方面回應媒體:出于“高度謹慎”,它暫時刪除了其數據集,“以確保在重新發布之前它們是安全的”。
據LAION 網站稱,其數據集不保存圖像存儲庫。數據集主要來自對互聯網進行索引,并包含其抓取的圖像和替代文本的鏈接。
翻看LAION官網的FAQ就能明顯感受到,LAION 對其數據集的安全性和合規性方面并不是很自信。
比如針對“LAION數據集是否包含可能令觀看者感到不安的圖像”這一疑問,LAION明確回答:不會!卻緊接著把“鍋”甩給了用戶:“但數據集中的鏈接可能會導致圖像令人不安或不適,具體取決于所使用的過濾器或搜索方法。”
圖片
此次“數據集翻車”事件的受害者之一Stability AI 明確表示,雖然確實使用了 LAION-5B 訓練其模型,但它們對數據集進行了微調,確保了數據安全性。
Google 方面也迅速劃清界限:Imagen 的初始版本僅用于研究,而且是在 LAION-5B 的舊版本 ( LAION-400M)上進行訓練的,后續迭代并沒有使用 LAION 數據集。但這一回應馬上被“打臉”:斯坦福大學的報告指出,Imagen 的開發人員發現 400M 包含“各種不當內容,包括色情圖像、種族主義誹謗和有害的社會成見”。
其實對于LAION數據集是什么情況,Google心里也有數。早在Imagen發布時,也專門針對LAION-400M做出警示:因為依賴于這種未經整理的網絡數據, 集成了大模型的社會偏見和限制,因此不適合公開使用。
斯坦福大學的研究人員表示, CSAM 的存在并不一定會影響在數據集上訓練的模型的輸出,但模型總有可能從圖像中學到一些東西。 同時研究人員也承認,要完全刪除有問題的內容是很困難的,尤其是從人工智能模型中刪除。他們建議應該棄用在 LAION-5B 上訓練的模型,并在可行的情況下停止分發。
3、有“前科”,還不止一次
誰能想到,這并不是 LAION 的圖像數據集第一次受到攻擊。
早在 2021 年 10 月,認知科學家 Abeba Birhane(現任 Mozilla 人工智能高級研究員)就發表了一篇研究早期圖像數據集 LAION-400M的論文。研究發現,該數據集包含“令人不安的露骨圖像和文本對”。
此外,LAION還被卷入兩場訴訟之中。
一起是2023 年年初,三名藝術家對 Stability AI 和另外兩家公司提起訴訟,稱這些公司使用了來自 LAION-5B 的數百萬張受版權保護的圖像來訓練他們的圖像生成模型。其中一位知名人士Karla Ortiz還在一次公開講話中抨擊了 LAION-5B 數據集:“LAION-5B包含令人深感擔憂的材料,例如私人醫療記錄、未經同意的色情內容、兒童圖像,甚至社交媒體上我們真實面孔的照片。”
另一起案件的訴訟原因如出一轍。Getty Images起訴Stability AI,指責后者公然侵犯了其知識產權,且規模驚人。Getty Images聲稱,Stability AI未經許可將其1200萬張照片(通過 LAION)取走,并用來訓練Stable Diffusion,侵犯了Getty Images的版權和商標保護權。
4、AI訓練中的數據合規問題
大模型“大力出奇跡”的暴力美學,決定了擁有的數據越多、質量越高,大模型的能力也就愈加強大。除企業本身積累的數據,開源數據集等也構成大模型數據來源的一部分。如何確保來源繁雜的AI訓練數據的合規?成為擺在企業面前的一道難題。
人工智能技術的應用中存在的數據合規問題主要包括以下幾個方面:
一是數據隱私保護。個人或組織的敏感信息可能被用于訓練機器學習模型和數據分析。因此,需要采取措施保護數據隱私,例如數據加密、匿名化和訪問控制等。
二是數據的可信和準確性。模型訓練的準確性和性能取決于訓練數據的質量。因此,需要采取刪除無用數據、數據質量檢查、刪除敏感信息、數據標注等措施確保數據的可靠和準確。
三是數據的所有權問題。許多數據是由多個組織共享的,例如醫療記錄或交通流量數據。因此,需要明確數據的所有權和共享方式,以避免數據的非法使用和侵權行為。
頂尖科技的發展過程雖然可能摻雜一些“小插曲”,但AI大模型的發展之路也不應被這些插曲淹沒,而是應該從中得到一些反思。回到這次事件本身,無論是提供開源數據集的組織,還是使用公眾數據集的企業,都應該守好行業底線、遵守行業準則,讓AI應用能夠穩穩落地。
參考鏈接:
https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/
https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford
https://zhuanlan.zhihu.com/p/621678747