不是LlaMa套殼！李開復麾下大模型陷套殼爭議，團隊二次回應來了！

作者：諾亞 2023-11-15 16:33:10

不久前，外界對百川智能開源模型Baichuan-7B同樣提出了是否套殼LLaMa的質疑。彼時，王小川表示，搜索公司干了20年，團隊對語言數據有深入的理解，知道取得高質量語料的渠道，模型迭代速度很快，“國內開源模型的能力目前已經可以達到LLaMa”。

整理丨諾亞、小歐

出品 | 51CTO技術棧（微信號：blog51cto）

昨天科技圈社區Hacker News突然出現一則消息，矛頭直指不久前發布的大模型Yi-34B，認為其除了兩個張量被重新命名外，完全使用了Llama的架構。

圖片

而根據公開信息，Yi 系列開源大模型沒有在開源 License 中提及Llama。雖然原貼評論寥寥，但還是引起了部分關注。畢竟“Yi”才發布不久，而且備受期待。

今年3月，李開復在朋友圈發英雄帖，官宣組建零一萬物團隊。僅僅7個月后，零一萬物就發布了開源中英雙語大模型“Yi”。據有關資料顯示，在獲得創新工場、阿里云和其他未披露投資者的融資后，零一萬物的估值已超過10億美元。

更令人矚目的是，據零一萬物官方介紹，Yi-34B不僅以黑馬之姿取得了多項SOTA 國際最佳性能指標認可，而且成為了迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國產模型。

因此，無論是圈內還是圈外，都在關注：“Yi”如何面對這一質疑，后續會有何回應。

事件的肇因是一篇發布于Hugging Face的帖子。

一位署名為ehartford的開發者于9天前在社區留言。他首先指出，據其了解，Yi 使用的正是 Llama 的架構，除了重新命名了兩個張量（input_layernorm，post_attention_layernorm）。

更重要的是，由于圍繞 Llama 架構有大量的投資和工具，因此對張量使用相同的名稱是有價值的。因此他希望，在該模型獲得大量采用之前，開源社區重新發布Yi，并“重新命名張量，以便有一個符合Llama架構的版本”。

圖片

下面有跟帖的開發者也指出：如果他們確實采用了Meta LlaMA 結構、其代碼庫和所有相關資源，就需要遵守LLaMA規定的許可協議。要求以 LlaMA 形式正式發布 Yi 模型是有問題的，因為它破壞了 Yi 許可條款的可執行性。

隨后又有熱心網友挖出了前阿里VP賈揚清在朋友圈發的一張圖，直言某國產大模型實際上是抄襲的LlaMA，為表示不一樣就更換了幾個變量名。甚至還犀利諷刺道：如果是開源的模型架構，就不要改名字了，“免得我們還做一堆工作就為了適配你們改名字”。雖然賈揚清沒有指名道姓，但有留意此事的人不免“對號入座”。

圖片

2、首次針對性回應：命名問題是團隊疏忽

對于此番爭議，零一萬物隨后給出了自身的回應。

就在昨天，其團隊開源總監 Richard Lin 在Hugging Face社區原貼之下指出“命名問題是團隊的疏忽，在大量訓練實驗中，我們對代碼進行了多次重命名以滿足實驗要求。但在發布正式版本之前，我們沒能將它們切換回來。對此我們深感抱歉，由此造成的混亂我們也深表歉意”。

圖片

Richard Lin向原貼主承認修改張量名稱的做法不妥，“您對張量名稱的看法是正確的，我們將按照您的建議將其從 Yi 重命名為 Llama。我們也非常重視以準確、透明的方式完成工作。”

與此同時，他也給出了解決方案：要么邀請這名發現問題的開發者提交一條包含這些變更的拉取請求，要么由他們團隊處理更新按要求操作并在同一個 repo 中發布新版本，從而完成對 Yi 的張量名稱進行重命名以符合 Llama 架構。

最后Richard Lin重申，他們會努力改進工作流程，確保不會再次發生類似的失誤，“接下來我們將再次檢查所有代碼，確保其余部分準確無誤”。

有人說，LLaMa本就是開源的模型，使用LLaMa的架構是正常的大模型訓練步驟。而且國內已發布的開源模型也絕大多數采用漸成行業標準的 GPT/LLaMA 的架構。要訓練出好的模型，除了架構之外，更需要好的訓練數據和對訓練方法和具體參數的精準把控。

正如零一萬物在今天下午發布的公告所表達的：大模型持續發展與尋求突破口的核心點不僅在于架構，而是在于訓練得到的參數。

圖片

全文核心觀點可總結如下：

國內開源模型絕大多數采用 GPT/LLaMA 的架構，大模型持續發展與尋求突破口的核心點不僅在于架構，而是在于訓練得到的參數。
零一萬物團隊完成了很多科學訓模的系統性工作，比起基本模型結構能起到巨大的作用跟價值。
零一萬物團隊投注大部分精力調整訓練方法、數據配比、數據工程、細節參數、baby sitting（訓練過程監測）技巧等。這一系列超越模型架構之外，研究與工程并進且具有前沿突破性的研發任務，才是真正屬于模型訓練內核最為關鍵、能夠形成大模型技術護城河 know-how積累。
對于沿用LLaMA部分推理代碼經實驗更名后的疏忽，原始出發點是為了充分測試模型，并非刻意隱瞞來源，將盡速完成各開源社區的版本更新。