解析Llama 3.1 與Meta 的 AI 戰略,以及新的開放前沿模型生態系統
今天,Meta 發布了 Llama 3.1 模型,延續了他們從最初的 Llama 3 “預覽版”開始就踐行的開源理念,即盡早發布和頻繁發布。Llama 3.1 模型有三種規模:8 B、70 B和長期傳聞中的 405 B 參數。對于其規模來說,這些模型是同類中最優秀的開源模型。4050 億參數模型直接與 Anthropic 的 Claude 3 和 OpenAI 的GPT-4o 處于同一水平。Llama 3.1 的營銷以及Meta 的 AI 戰略正在直接推動將開源軟件實踐轉化為開源AI。這次發布的核心和 AI 的未來是 AI 能有多“開源”,以及 Meta 是否確實是掌握這一技術的公司。
這將是關于 Llama 3 和開放語言模型生態系統的多篇文章中的第一篇。鑒于 Llama 3.1 的發布幾乎沒有限制,本文將重點介紹人工智能未來的可能發展。開放語言模型(不一定是開源的)現在比正在準備百億美元訓練集群的封閉實驗室有更多的保障相關性。開放社區現在有了一個模型,即 4050 億參數的指令變體,這為研究和開發打開了許多大門——提煉、合成數據、微調、工具使用等等。
Meta 的開放前沿模型
Llama 3.1 發布博客包含了有關該模型的所有常規細節。該模型的架構非常簡單,以至于其簡單性成為一個話題重點。它是一個前饋密集Transformer,擁有非常多的參數,并在精心策劃的 15.6 萬億個數據標記上進行訓練。與 Llama 3 和其他最近的開源模型相比,其許可證相當不錯,允許創建合成數據,但附帶了嚴格的品牌條款。
該模型展示了 Meta 在擴展其系統方面的重點,而不是像 OpenAI、Anthropic 和Google 為其華而不實的小模型(Haiku、Flash 和 Mini)所做的那樣,走專家混合然后提煉的路徑。Meta 在前沿模型游戲中起步較晚,但它正在迅速縮小差距。這是第一次在開放模型發布帖子中與封閉的前沿模型進行公平比較。
Llama 3.1 405B instruct(以及基礎模型,但上述內容更可能是 instruct)超過了許多現有的最佳模型(以藍色突出顯示)。Meta 還展示了他們 3.1 系列中的較小模型變體如何輕松擊敗其他開源模型(包括近期的模型,如 Gemma 2)。
Meta 與開發人員一起為發布此版本付出了很多努力,并且在第一天就集成了許多流行工具,從 HuggingFace 到 VLLM 等。對于用戶來說,重要的是量化模型的發布,例如 405B 模型的 FP8 版本,因此可以在一臺由 8 個 80GB A100 或H100 組成的節點上輕松運行推理。
在這個模型中,數據依然是王者。他們沒有詳細說明太多,而 Scale AI 聲稱自己是后期訓練的合作伙伴,此外還有大量的合成數據,這與Nemotron 的配方非常相似。
405B 模型在 API 上的定價與 GPT-4o 非常相似,范圍為輸入每百萬Token 3-9美元,輸出每百萬Token 3-15美元,而 GPT-4o 的定價為輸入每百萬 5美元,輸出每百萬 15美元。不過,通過本地托管,許多機構能夠大大降低成本,因為他們已經擁有現有的 GPU 配置。
該模型可以在 Meta.ai 上免費使用(并可以在 HuggingFace 上下載),但沒有通過大多數模型仍未能通過的“氛圍測試”(沒有網絡 API)。除了事實知識之外,其文本顯然相當不錯。有趣的是,Meta 將用戶體驗從其他提供商的默認設置進行了交換,將用戶放在左邊,助手放在右邊。我想知道他們是否通過 A/B 測試測量到參與度的提升,或者只是想與眾不同。
扎克伯格的開源AI愿景(與現實的對比)
隨著 Llama 3.1 的發布,馬克·扎克伯格撰寫了一篇引人注目的文章,闡述了為什么開源AI是美國科技產業應追求的正確方向。文章集中在三個論點上:開源AI對開發者的好處,開源AI對Meta的好處,以及開源AI對世界的好處。我同意他文章的大意,特別是他對智能爆炸等“意外傷害”可能性的處理,但他在利用精心編織的故事試圖過度推銷 Meta AI 的角色。
扎克伯格論點的核心在于語言模型和AI將成為未來技術的新計算平臺,他借用了協作開發的Unix操作系統的類比(特別是在最近 CrowdStrike 新聞的背景下)。開源AI對開發有利的原因現在基本被廣泛接受——數據隱私、自己基礎設施的安全性以及通過訓練自己的模型來節省成本。
這篇文章最有趣的部分是關于開源AI對Meta和世界的作用。Meta的戰略完全認識到AI是一種工具,而不是他們商業模式的核心,因此他們應該使這些工具變得平民化。科技公司在這方面有著悠久的歷史——他們在削弱競爭對手的同時,不會損害自己的表現。當AI發展如此迅速時,它也有可能從社區為他們的模型找到的技巧中獲得優勢。扎克伯格正在重復一個幾十年來一直適用于科技公司有效的簡單策略,但可能適用于較小的資本投資規模上。這適用于 Llama 3 的規模,但尚不清楚 Llama 4 是否會再大十倍(他謹慎地不討論這些趨勢)。Llama 3 的成本可能在1億美元左右(但實際上更多),這很便宜。而10億美元及以上的投入開始會影響股東。
在這篇博客文章和扎克伯格為此(以及其他Llama 版本發布)所做的采訪中都表明,Llama 是開源AI 的核心。操作系統等軟件包可以通過許多小貢獻構建,而語言模型則需要集中開發和較慢的發布周期,兩者之間存在根本性的不匹配。基礎模型是開源 AI 生態系統的重要組成部分,但修改它的工具和開放的訓練資源同樣重要——而這些Meta 并不擁有。
開源 AI 技術的真正起點是 Nvidia GPU、Nvidia 的Cuda、HuggingFace,然后是 Meta 的 Llama。Nvidia 收購HuggingFace 并訓練 Nemotron 5 以擁有AI 的開源默認架構要比 Meta 代表整個技術容易得多。由于早期對 AI 的反壟斷關注,Meta 和Nvidia 可能都無法在這個領域擴展,因此開源 AI 將根據當時最好的模型來發展。
Meta 只能通過訓練更好的模型來鎖定用戶,但這是一個成本高昂且用戶粘性低的過程。盡管有些人批評 HuggingFace 的代碼質量,但它將繼續成為transformer 風格模型的默認起點——這是一個更難打破的真正鎖定。即使 Meta 不會為用戶創建鎖定(因為它不需要通過其變現),每個邊際模型現在都在對競爭對手施加真正的壓力。將競爭壓力與品牌區分開是 Meta 戰略中最難的部分——他們不知道哪一個更重要。
扎克伯格最后一個論點是“為什么開源對世界有好處”,他將其分為對故意傷害(例如仇恨言論、惡意行為者等)的研究和非故意傷害(例如流氓 AI、失控模型等)的研究。他認為,我們使用的開源模型對故意傷害的影響很小,因為大多數故意傷害取決于誰在部署用戶端點,因此我們應該對非故意傷害進行細致入微的辯論。
我同意,目前最好的選擇是公開、快速地發布現有模型,讓更多科學家、監管機構和社區參與進來。我們需要在開源中擁有最先進或接近最先進的模型,以了解技術的發展,然后如果出現新興威脅,我們可以快速應對。
Llama 3.1 許可證是否支持開源 AI ?
在發布材料中,特別是模型卡片和論文中,Meta繼續沿用 AI 領域的開源行業標準。從扎克伯格開始,Llama 3.1 被宣揚為“開源 AI”的領先戰略,而 Meta 參與的機構工作組正在討論開源 AI 的真正定義。Llama 3.1 的發布不符合任何提議的開源 AI 定義,主要在數據這一步上失敗。Meta 的發布文件中提到數據是“公開可用的”,但沒有給出明確定義或文檔。同時,Scale AI 的 CEO 在推特上表示,Llama 3.1 是他們數據代工業務中的一個重要合作項目。
Llama 3.1 的更細微組件及其對開源生態系統的潛在支持是通過其許可證實現的。Llama 3.1 將成為大多數人的默認模型,但許可證決定了更多組織和小公司如何能夠加入開源前沿模型的運動。
定制許可協議是頂級 AI 實驗室發布新開源模型的決定性因素,通過 Llama 3.1,Meta 完善了其AI 的開源戰略。Llama 3.1 許可證是對相當嚴格的,Llama 3 許可證的修改,保留了其大部分關于商業用途限制、命名限制和法律填充(責任、定義、條款等)的核心條款。Llama 3.1 許可證的主要變化是圍繞輸出訓練(用于合成數據)和下游命名的條款。
1、用戶現在可以使用 Llama 模型的輸出來訓練其他模型。在之前的許可版本中,用戶只能訓練 Llama 模型。
2、用戶仍然必須將他們的下游模型命名為“Llama-{你的模型名}”,這與之前的“Llama-3-{xyz}”有些許變化。
值得注意的是,即使我們可以在輸出上訓練模型,但得到的結果會被納入 Meta 的開源戰略中。
Meta 盡最大努力將開源語言建模社區的所有工作吸收到其Llama 品牌中。憑借這些模型的評估分數優勢,使用 Llama 3.1 Instruct 405B 進行合成數據訓練將比大多數實驗室使用 API 便宜得多,而從 8B 或70B 模型中進行微調將成為大多數學術界的核心基準和起點。
原始 Llama 3 許可證的條款并沒有意義,因為它們在精神上試圖推廣 Llama 品牌,但卻限制了合成數據分發的主要方法之一。
在開源 AI 的背景下,大多數發布模型的公司會遵守這些規則——名稱更改不值得承擔法律風險。大多數在開源 AI 模型之上構建的公司不會公開發布它們的模型,因此命名和衍生許可成為無關因素。
在某種程度上,這感覺像是法律困境中的小弟弟,類似于我們是否可以根據 OpenAI 的服務條款在其輸出上進行訓練的問題。社區在早期的開放微調項目中接受了訓練輸出的做法。許多公司這樣做了,唯一面臨審查的是中國公司 ByteDance。Meta 會以同樣寬容的方式對待其許可證條款嗎?誰會冒險去發現答案?
大多數公司會嘗試遵守規定,但在線訓練合成模型的個人將把這視為自由使用 Llama 3.1 輸出來訓練開放模型的許可。鑒于這些許可證文件的格式極其奇怪,其合法性受到質疑(例如,讓用戶擁有輸出,然后對他們命名數據集進行限制,這有什么意義?),Llama 3 許可證的增量比當前版本的文本更有說服力。
存在許多微妙的方式來繞過命名規則,但意圖很明確——Meta 希望 Llama 品牌盡可能觸及開源生態系統的各個方面。在這一點上,Meta 應該進一步將其 meta.ai 界面更名為 llama.ai。
使用此模型時需要注意的其他條款包括:
1.任何衍生產物,包括模型和數據集,都必須附帶Llama 3.1 許可證進行分發。
2.在發布時,擁有超過 7 億活躍用戶的公司不能使用該模型。
這項新許可證使 Llama 模型在實現 Meta 的焦土策略(scorched earth strategy)方面更進一步。至此,如果你希望避免任何許可證限制,Nemotron 340B 仍然是合成數據的最佳模型。如果 Meta 想要定義開源 AI 并成為實現這一目標的平臺(無論他們是否處于正確的技術層級),那么這一許可證的做法并沒有以一種讓其他實體能夠接受的方式來定義開源 AI。
Llama 3 許可證可能由于社區的反對而被削弱,所以我們將拭目以待未來的許可證能取得多大的進展。為了成為“真正的開源”,該模型可能需要更多關于數據的細節,并移除對允許使用類型的限制(這是開源軟件歷史上的一場漫長斗爭)。Llama 3.1 許可證更接近于免費軟件,而非開源軟件。
前沿模型監管的不同未來
在 Llama 3.1 發布的同一天,五名民主黨參議員致信向 Sam Altman 和 OpenAI ,要求提前了解未來基礎模型的發布計劃(原文來源《華盛頓郵報》)。這封信的發出,正值 Claude 3.5 Sonnet 發布之際,Anthropic 詳細說明了他們在發布前與英國 AI 安全研究所進行了檢查。而 Meta 雖然在內部努力緩解“關鍵風險”,但并未提及主權實體的參與——他們只是“遵循”已經制定的規定。在他們關于 Llama 3.1 負責任開發的公告中寫道:
“我們密切關注全球各國政府在定義 AI 安全方面的努力。Meta 支持新的安全機構,并與美國國家標準與技術研究所 (NIST) 和 ML Commons 等知名機構合作,推動制定共同的定義、威脅模型和評估。我們與前沿模型論壇 (FMF) 和人工智能伙伴關系 (PAI) 等機構合作,尋求制定共同的定義和最佳實踐,同時與民間社會和學術界進行互動,幫助我們制定方法。在此次發布中,我們繼續在公共安全和關鍵基礎設施領域(包括網絡安全、災難性風險和兒童安全)對我們的模型進行評估和紅隊測試。”
我相信扎克伯格所說的公司應該公開合作并與政府合作(引用自與 Rowan Cheung 的采訪)——與許多其他大型科技公司(例如特斯拉和蘋果)相比,他在支持美國價值觀方面的記錄更為良好。雖然許多人可能會認為他可以做得更多,特別是考慮到平臺為盈利而接受政治言論的情況,但 AI 正在引發一場新的討論,超越了單純的內容問題。
Meta 采取這種立場將有助于平衡關于美國未來 AI 生態系統的應該是什么樣子的討論和游說努力。開源模型將使更多人有機會參與其中,深入理解這些模型的能力。
與此同時,GPT-5 即將問世,扎克伯格暗示 Llama 4 的架構即將發生變化,更不用說即將到來的多模態 Llama 3。鑒于不確定性和進展的速度,我們需要讓更多的利益相關者參與到這一過程中,而不僅僅是最大公司的代表。有些人認為,OpenAI 已經感受到這次發布帶來的產品壓力,推出了其小型模型 GPT-4o 的新免費微調功能。
目前,我們祝賀 Meta 成為前沿模型實驗室的成員,加入了 OpenAI、Anthropic 和Google 的行列,這是一項巨大的努力。但在不久的將來,他們截然不同的戰略將重新點燃 2022 年和 2023 年關于 AI 應如何處理的辯論。
本文轉載自 ??MoPaaS魔泊云??,作者: NATHAN LAMBERT
