開源AI到底是什么？業界：超出開源軟件范疇，需要重新界定

作者：小刀 2024-03-29 09:00:00

開源AI意味著未來任何人都可以參與科技開發，它能加速創新、增強透明度，讓用戶對系統擁有更多控制權。但到目前為止沒有人給“開源AI”進行明確界定，科技巨頭完全可以根據自己的需要扭曲概念，甚至有可能利用開源AI穩固自身地位。

最近AI圈突然流行起開源概念。Meta承諾將會打造開源AI，馬斯克起訴OpenAI，說它缺少開源模型。與此同時，一批科技領袖和科技企業紛紛為開源概念吶喊。不過科技界碰到一個難以解決的根本問題：它們對“開源AI”的概念無法達成共識。

照字面意思，開源AI意味著未來任何人都可以參與科技開發，它能加速創新、增強透明度，讓用戶對系統擁有更多控制權。但到目前為止沒有人給“開源AI”進行明確界定，科技巨頭完全可以根據自己的需要扭曲概念，甚至有可能利用開源AI穩固自身地位。

在這里我們不得不提到Open Source Initiative (OSI)，它是一個非盈利組織，成立于1998年，正是它推動了開源軟件的發展。OSI已經招集研發人員、律師、議員、大科技公司代表，總計約70人，試圖明確界定“開源AI”概念。

OSI高管Stefano Maffulli說，他們對開源AI原則已經達成廣泛共識，但細節方面分歧很多。要考慮復雜的競爭利益，要找到一套方案讓所有人滿意，要讓大企業積極參與，真的不容易。

大廠的態度

去年7月，Meta開源Llama 2模型。Meta AI與開源事務法律副總顧問Jonathan Torres說：“我們支持OSI明確定義開源AI，為了全球開源社區的利益，我們會積極參與定義工作。”

相比Meta，OpenAI顯得沒有那么積極。在過去幾年前，OpenAI很少談及自己的研發進度，理由是安全無法保證。OpenAI新聞發言人稱：“只有當我們謹慎評估好利益與風險，包括誤用、加速等問題，才會考慮將強大的AI模型開放。”

Stability AI和Aleph Alpha已經提供一些開源模型，Hugging Face托管了一批免費使用AI模型。

谷歌Gemini和PaLM 2模型也沒有開源，但Gemma模型已經可以免費使用，它的對手是Meta Llama 2，但谷歌所說的不是“開源”，而是“開放”。

到底上述模型能不能稱為“開源”，大家意見并不統一。不管是Llama 2還是Gemma都需要獲得授權，使用時會受到限制，苛刻的要求無疑是與開源相違背的。既然開源就不能施加任何限制，科技企業顯然沒有做到。

OSI高管Stefano Maffulli稱，開源的目的本來是要確保開發者可以隨意使用、研究、修改、分享軟件，不施加任何限制，但AI的運行方式有些不同，所以原本適用于軟件的開源理念無法流暢轉移到AI領域。

Stefano Maffulli解釋稱，AI模型涉及的組件太多了，如果是軟件，只需要修改底層代碼就行了，AI更復雜，根據目的的不同，修改AI模型會牽涉到訓練模型、訓練數據、處理數據的代碼、管理訓練流程的代碼，還有模型的底層架構等。

基本自由是什么？基本權利是什么？我們都需要明確界定。為了執行基本權利如何操作也不夠明晰。只有定義明確，定義被大家尊重、接受才能降低合規成本，減少摩擦，分享知識。

當前的癥結在于數據。所有大型科技企業只是簡單發布了預訓練模型，沒有提供訓練數據。如果想給開源AI下一個更明確的定義，沒有數據就很難修改、研究模型，所以它們并不是開源模型。

有些人持不同意見，他們認為只要簡單描述數據，研究人員就能深入調查模型，沒有必要通過重新訓練來修改模型。預訓練模型可以通過所謂的微調進行調整，也就是用一批規模較小的特殊數據集來重新訓練。

比如Meta提供的Llama 2，Meta雖然給出的是預訓練模型，但已經有一批開發者下載、修改它，然后分享自己的修改結果。開發者會用它完成各種項目，它已經擁有一整套生態系統，我們能不能叫它半開放？或者叫半開源？

非盈利組織Open Future的研發人員Zuzanna Warso認為，從技術角度看，如果沒有原始訓練數據，研發人員無法修改模型，但沒有訓練數據就真的無法自由研究模型嗎？這個爭論點也值得商榷。

Zuzanna Warso稱：“在整個流程中，訓練數據是關鍵組成部分。如果我們真的關心開放，也應該關心數據的開放度。”

開源的意義

AI Now Institute聯合執行董事Sarah Myers West去年曾發表一篇論文，她在論文中指出，許多開源AI項目缺少開放性，但她同時也指出，訓練尖端AI需要大量數據和計算力，苛刻的要求限制了小玩家的參與，不管模型的開源程度如何都受到限制。

通過開源，人們希望達成怎樣的目標？對于這個問題大家也莫衷一是。Sarah Myers West稱：“是為了安全？為了學術研究？還是為了增強競爭？我們必須對目標有更清晰的認識，系統開放到什么程度會對目標追求產生怎樣的影響，這點也需要考慮。”

OSI在定義草案中認為，開源能帶來好處，其中自主、透明就是關鍵收益，但文件中也提到了“超出范圍的問題”，比如倫理、信任、責任。

Maffulli解釋稱，從歷史上看開源社區的關注重點是如何減少軟件分享摩擦，不能陷入無限爭論，比如應該如何使用軟件。

有人不認同Maffulli的說法，技術是中性的，倫理問題不可控，這些有爭議的問題本來就很重要，之所以拒絕討論是避免松散的開源社區分崩離析。

除了OSI，還有一些組織也想為開源AI指明方向，比如2022年成立的 Responsible AI Licenses（RAIL），它想通過開源授權的方式限制模型特殊使用方式。拿到授權后，開發者不能以不合適、不道德的方式使用AI模型。在Hugging Face的托管平臺上，已經有28%的模型使用了RAIL授權。

谷歌Gemma的授權也遵循相似的原則，拿到授權的開發者不能將模型應用于有害場景。艾倫人工智能研究所也制定了自己的授權規則。

開源軟件管理公司Tidelift的聯合創始人Luis Villa認為，考慮到AI與常規軟件有所不同，探索不同程度的開放是難以避免的，這樣做對整個行業也可能是有益的。但是各種開放授權互不兼容可能會影響協作，只有協作能讓開源走向成功，除此還有其它一些負作用，比如AI創新會受影響，透明度會降低，小玩家參與難度提升。

社區應該圍繞單一標準進行授權合并，否則就會各行其是。對于OSI的方針政策，Luis Villa也不是很認可。當初OSI提出開源軟件定義時時間充裕，外部審查也很少，如今的AI環境大不相同，有大企業和監管者干涉。

如果開源社區無法給出明確的定義，其它人就會根據自己的需求各提出一套定義。Luis Villa稱：“它們會填補真空，扎克伯格可能會告訴我們所謂的開源AI是什么，他講的話影響肯定很大。”（小刀）

責任編輯：龐桂玉來源：極客網

開源 AI 人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源AI到底是什么？業界：超出開源軟件范疇，需要重新界定

大廠的態度

開源的意義