開源人工智能:數據透明度如何?
人工智能使用代碼和數據,這種結合對開源來說仍然是一個挑戰,聯合國OSPOs for Good大會的專家表示。
譯自Open Source AI: What About Data Transparency?,作者 Steven J Vaughan-Nichols。
紐約 - 在聯合國OSPOs for Good Conference上,我們再次被提醒了人工智能和開源程序的奇特狀況:雖然人工智能的基礎建立在開源工具和庫上,但幾乎沒有主要的 AI 程序是真正開源的。OpenAI 的ChatGPT、Google的 PaLM(及其繼任者,多模態Gemini)和 Meta 的Llama-3通常被吹捧為開放的,但它們并非如此。它們附帶了不符合開源軟件定義的重大限制。
開源倡議組織 (OSI)作為開源定義的管理者,認識到人工智能日益增長的重要性和該領域需要清晰度,因此 OSI 已經開始了一個雄心勃勃的項目,旨在定義“開源人工智能”的含義。這項工作匯集了 70 位專家,包括研究人員、律師、政策制定者以及來自亞馬遜、谷歌和 Meta 等科技巨頭的代表。
說起來容易做起來難。正如 OSI 執行董事Stefano Maffulli在關于開源和人工智能的小組討論中指出的那樣,“雖然人們對總體原則達成廣泛共識,但很明顯,魔鬼在細節中。”
開源社區是一個大帳篷,涵蓋了從地下黑客到基層活動家再到財富 500 強公司的所有人,每個人都有自己的優先事項和關注點。
簡而言之,“在開源人工智能的實際含義方面,我們需要新的護欄和新的指南,”GitLab首席營銷和戰略官Ashley Kramer在小組討論中說。
LLM 數據透明度:一個棘手的問題
小組討論中清楚地表明,定義開源人工智能的最大挑戰在于解決訓練數據的作用。大型語言模型 (LLM)依賴于龐大的數據集,這些數據集通常是從互聯網上抓取的,沒有明確的許可。這些混亂的數據引發了關于隱私、版權和倫理的棘手問題。
事實上,我們知道其中一些數據完全是非法的。“最近用于訓練許多圖像生成 AI 工具的最大圖像數據集之一[LAION-5B] 包含兒童性虐待圖像,” Maffulli 說。“我們需要數據集維護者注意到并刪除這些內容。”
OSI 的草案定義試圖通過關注與開源軟件傳統相關的“四大自由”來回避數據問題:使用、學習、修改和分發 AI 系統的自由。它關注的是代碼,而不是數據。
是否應該要求開源 AI 模型披露其訓練數據?如果是,如何才能在隱私問題和共享 PB 級信息帶來的實際挑戰之間取得平衡?對于 OSI AI 定義草案的許多批評者來說,答案不僅僅是肯定,而是“絕對肯定”。
正如亞馬遜網絡服務公司首席開源技術策略師Tom Callaway在會議之前在 LinkedIn 上寫道的那樣,“沒有數據就無法構建 LLM。沒有數據,LLM 不僅缺乏任何目的,它根本不存在。這使得數據成為 LLM 的功能性和必需的源組件。”
他和其他人認為,任何關于開源人工智能的定義,如果不解決數據問題,都是不完整的。
Maffulli 承認這是一個真正的擔憂:“這需要辯論和最終確定。”但他補充說,“推動數據徹底開放存在弊端,也會帶來問題。因此,這將是意圖和對公眾最有利的結果之間的平衡。”
然而,另一位小組成員,Sasha Luccioni,Hugging Face 的人工智能和氣候負責人,則持不同觀點。Luccioni 認為,成為開源純粹主義者是一個錯誤。
“你不能指望所有公司都 100% 開源,因為這受開源許可證的定義,”她在小組討論中說。“這就是為什么存在多種許可證的原因。說這不是真的,開源會讓公司感到反感。你不能指望公司放棄他們賺錢的一切,并以他們感到舒適的方式這樣做。”
她認為,“存在一種負責任的人工智能許可證”,它對開源友好,“你可以定義自己的開源條款。通過稍微調整語言,你可以以一種讓公司、政府和學術界都感到舒適的方式向前發展,而不是說這個項目或許可證不是開源的。
“我們必須共同努力”
在 The New Stack 采訪過的所有開源倡導者中,沒有人對這種觀點感到滿意。無論 OSI 人工智能定義如何,什么是開源人工智能,什么不是開源人工智能,這個問題對開源社區來說仍然至關重要。
這在開源社區之外也很重要。正如肯尼亞科技特使Philip Thigo 大使在一個專門針對開源和人工智能的會議上的主題演講中所觀察到的,“開源人工智能確保許多全球南方社區能夠構建自己的 AI 程序和 LLM。”
這些國家無力為其人工智能需求支付 OpenAI 的費用。他們需要開源、全球標準和互操作性來構建人工智能系統,以解決他們的健康、氣候和教育需求。
展望未來,“我們必須共同努力,”Kramer 在會議小組中說,表明開源是實現這一目標的方式。
“我們必須了解模型的基礎數據,”Kramer 說。“雖然我喜歡人工智能的炒作,也喜歡它前進的方向,但我們在互聯網和云技術的興起中看到了非常相似的模式。我們行動越快,錯過的東西就越多。因此,需要一個團隊,需要一個開源人工智能護欄模型來真正弄清楚如何快速實現這一目標,同時將隱私、信任和安全放在首位。”
敬請關注。我們仍在書寫開源人工智能的故事。隨著 OSI 和其他人努力解決這些復雜問題,結果將對人工智能開發、創新和治理的未來產生深遠的影響。挑戰在于找到一個既能保持開放精神又能解決數據帶來的獨特挑戰的定義。這項任務可能需要重新思考關于在人工智能時代“開源”意味著什么的某些長期假設。