ACM最新論文戳破大公司「開源」謊言,GenAI時代到底如何定義「開源模型」
當我們在談論「開源」時,我們到底在談論什么?
在軟件時代,「開源」的概念并不模糊。我們可以非常清楚自信地說,Linux是開源的,Windows是閉源的。
更具體地說,曾經的「開源」是指能夠訪問、修改源代碼,并對程序的使用或發行不加限制。
但進入AI時代,這個概念變得愈發模糊。關于人工智能模型的「開源」到底如何界定,社區和行業專家仍未達成一致。
成立于1998年的Open Source Initiative(OSI)就始終在主持一個在線論壇,方便對開源AI模型的定義進行公開討論。
他們在官方網站上表示:「對于開源代碼和使用許可的傳統觀點不再適用于AI組件,已經不足以保證使用、研究、共享和修改系統的自由。」
OSI的開源AI定義草案從2022年發起,已經修改到了版本0.0.8,最新一版中宣稱,開源AI系統應該提供以下三個方面的信息:
- 訓練數據的詳細信息,包括數據集、數據來源、數據范圍和特征、獲取和數據選擇方式、標注程序、數據清理方法等,以便技術人員可以用相同或相似的數據復現模型的效果
- 用于訓練和運行的源代碼,包括支持庫以及預處理、訓練、驗證和測試、推理、模型架構等多步驟的代碼
- 模型參數,包括訓練階段中間關鍵的檢查點(checkpoint)以及最終的優化器狀態
這相比我們平常認知中的「開放源代碼」已經擴展了不少內容。
最近,荷蘭的兩位學者也注意到了AI行業「開源」這個定義的模糊性,于是發表了一篇論文討論這個問題。
文章已被ACM下轄的FAccT會議(Fairness, Accountability and Transparency)接收,并得到了Nature的報道。
論文地址:https://dl.acm.org/doi/10.1145/3630106.3659005
本文創建了一個排行榜,用于識別最「開放」和最「不開放」的模型,并譴責了大公司「掛羊頭賣狗肉」的行為。
共同一作Dingemanse表示,一些大公司聲稱自己的模型開源并從中獲益,卻試圖盡可能少地披露模型信息。論文將這種行為幽默地比喻為open-washing(源于「洗白」white-washing一詞)。
這篇論文也得到了同行的認可,Mozilla基金會可信AI方面的高級研究員Abeba Birhane稱贊這項研究「戳破了當前開源討論中的大量炒作和廢話」。
大公司open-washing,開源≠開放
給模型貼上「開源」的標簽,不僅對社區和開發者有不可抗拒的誘惑力,也能在法律和商業層面帶來豐厚回報。
將模型開源的行為,似乎讓研發團隊顯得更加嚴謹、透明,而且看起來不那么鉆營于短期利益,而是致力于整個AI行業的長遠發展。
此外,歐盟今年通過的人工智能法案也對開源的通用模型有一定的豁免,沒有那么高的透明度要求,讓它們承擔「較少且尚未定義」的義務。
在這樣的背景下,許多LLM都是頂著「開源」光環出道的,標志之一就是使用博客文章發布模型。
論文發現,大公司發布模型的博客文章中會包含精心設計的表格,并在MMLU、HumanEval、TruthQA等基準上進行打分測試。
這讓發布者保留了科學研究的光環,但又巧妙避免了真正發布科研論文時需要面臨的詳細審查與同行評審,從而不必被迫披露不想公開的數據。
那么到底應該用什么樣的標準定義「開源」?
論文提出,鑒于GenAI系統的復雜性,最有效的方法將是把「開放性」視為一個復合且分級的概念。
「復合」體現在由多個因素組成,其中每個因素都可以單獨進行評估;「分級」是因為每個維度都能以不同的程度實現開放,不能賦以「開放/封閉」這樣簡單的二元劃分。
于是,對46個聲稱「開源」或「開放」的大模型以及眾多小型模型,作者進行了多維度的評估與對比,在14個參數上進行了三分類:開放(open)、部分開放(partially open)還是封閉(closed)。
專注于開放技術的非營利公司OpenUK的CEO認為,在分析開放程度時,使用這種滑動尺度取代簡單粗暴的分類,是更加實際且有用的方法。
14個參數涵蓋了3個方面——
- 可用性:包括代碼、數據、模型權重、指令微調的數據、微調后的權重
- 文檔:源代碼、模型架構的說明文檔,模型卡(model card)、數據表(data sheet)、是否發布了預印本和經過同行評審的論文
- 訪問與許可:是否把模型放到公開代碼庫上(如PyPI)作為軟件包發行,是否提供API訪問,以及模型的許可證
綠色表示開放,黃色表示部分開放,紅色表示封閉
評估結果
于是有了下面這種文本生成模型的開放性概覽圖,幾乎囊括了你能叫上來名字的所有模型。
可以看到,前十名中除了BLOOMZ和OLMo,幾乎沒有我們認識的模型。這是因為較小的團隊希望通過高標準的公開和透明,來彌補模型在規模和性能方面的不足。
Allen AI發布的OLMo系列以及BigScience的Bloom可以說是開源的典范,排在前兩名,接近完全開放的狀態。
這兩個模型的研發團隊都在竭盡所能地提供訓練數據、代碼、文檔和整個模型的pipeline。值得注意的是,Allen AI與Big Science都是非營利機構。
這種做法實在是少數中的少數。相比之下,三分之一的系統選擇只提供模型權重,但其他方面幾乎不公開任何細節
。
那么科技巨頭的表現如何呢?
ChatGPT無疑排名倒數第一,Cohere、谷歌、微軟等大型玩家都吊在車尾,包括被Meta包裝成開源模型的LLaMA。
在14個維度中,有兩項格外讓人擔憂:一是所有模型幾乎都沒有發布嚴謹的、經過同行評審的論文,二是訓練數據的整體不透明性。
除了文本模型,論文也對文生圖模型進行了評估。
在這個排行榜上,OpenAI的DALL-E倒數第一也在意料之內,但Stable Diffusion的表現尤為突出,也幾乎公開了所有信息,相比文本模型榜首的OLMo開放程度更高。
為什么論文只給概覽圖不給評分?是作者在水工作量嗎?
完全不是。對于「評分」這個問題,論文有進一步的考量和闡述。
對同一個概覽圖結果,用不同的派生方法和權重,你就能得到不同的評分。
換言之,評分是可以被操縱的。
給所有維度分配相同的權重,并分別用1分、0.5分、0分賦給開放、部分開放、封閉三個結果,就能得到圖2中基于梯度測量的累積性分數。
想要從分數轉換成分類標簽,可以設置不同的權重和閾值,用不同的方法劃分評分空間就會得到不同的結果,比如圖3和圖4。
我們目前所面臨的現實,更加接近上面圖5中的情況,也就是讓唯一的指標「一葉障目」,只通過是否有開放許可證或者是否公開了模型權重,判斷系統的開放性。
安全AGI,需要不盲目的開放
應不應該開放?對這個頗有爭議的問題,作者在論文最后給出了自己的觀點。
在完全共享模型每個組件和所有數據的「激進式開放」,和被稀釋到極其微弱的「順勢療法開放」(如只公開模型權重)之間,還存在著許多條道路。
完全開放并不是最完美的解決方案,比如AI的不正當使用、有害數據的泄露,都是不能忽視的問題。
開放性有不同的程度和維度,對生成式AI的監管應該鼓勵有意義的開放。比如訓練和微調數據,有可能在公眾審查和專業審核的目光下變得更加安全。
但是,在大多數情況下,開放依舊要好過封閉,這對于系統的風險分析(公眾需要知道)、可審查性(評估人員需要知道)、科學可復現性(科研工作者需要知道)以及法律責任(用戶需要知道)都有重要意義。
對評估人員而言,設計更好的評估框架,得出有意義、基于證據、多維度的開放性判斷,避免被操縱、偏頗的指標,能夠幫助我們做出更好的決定。
本文轉自 新智元 ,作者:新智元
