成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="iwo8g"><menu id="iwo8g"></menu></abbr>

<s id="iwo8g"><dd id="iwo8g"></dd></s>

<samp id="iwo8g"><option id="iwo8g"></option></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

力壓70B Llama 3，Gemma 2成最強開源模型！大佬質疑用榜單prompt微調引全網熱議

作者：新智元 2024-07-02 09:20:59

人工智能開源新聞

時隔4個月上新的Gemma 2模型在LMSYS Chatbot Arena的排行上，以27B的參數擊敗了許多更大規模的模型，甚至超過了70B的Llama-3-Instruct，成為開源模型的性能第一！

谷歌出手，果然非同凡響。

Gemma 2上周剛剛發布，就在LMSYS競技場上取得了亮眼的成績。

在整體評分上Gemma 2拿到了開源模型最高分，而且用27B的參數「以小搏大」，超過了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量級的知名模型。

開源模型的頭把交椅真的要易主Gemma了？

對于這個成績，谷歌研究院首席科學家Jeff Dean也發文慶祝。

很高興看到新版Gemma-2-27B模型成為LMSYS上最好的開源模型（擊敗了一些相當大的模型）。
我們認為，27B對于很多場景來說確實是一個非常好的規模，而Gemma-2-27B也是一個非常好的模型！

不僅是總體評分，在LMSYS昨天剛發布的「多輪對話」排行榜上，Gemma 2的表現依舊強勁。

LMSYS表示，LLM的多輪對話在當今許多應用場景中非常重要。

在競技場的投票中，多輪對話的占比為14%，占到了不可忽視的比例。

因此他們推出了新的排行類別「多輪對話」，其中包括兩輪或多輪的測試，以衡量模型在更長時間內交互的能力。

在這個全新的排行榜中，Claude家族的排名顯著提升。

總分屈居亞軍的Claude 3.5 Sonnet，成功地與GPT-4o并列第一；Claude 3 Opus也從原來的第8名躍居第三。

我們本次的主角Gemma 2也實現了2個名次的進步，進入前十行列，而且壓了Llama 3-70B-Instruct一頭。

在Gemma 2放出9B和27B兩個版本的同時，DeepMind研究員Clement在推特上透露，接下來還會有2B版本和大家見面！

曾經只靠開源「一招鮮」的Meta終于迎來了強勁對手。Gemma 2和Llama 3的競爭想必會在未來一段時間內持續下去。

Gemma為什么這么強？

為什么27B的Gemma 2能打敗70B的Llama 3？谷歌究竟用了什么技術實現如此高的參數效率？

或許我們可以從官方發布的技術報告中找到蛛絲馬跡。

報告地址：https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

訓練數據方面，可想而知，并沒有具體的數據來源和組成，只有數據量。

由于Gemma既沒有多模態又不針對多語言任務，因此訓練語料只包含各種類型的文本和代碼，且主要語言為英語。

27B模型的訓練數據有13萬億token，9B模型和2.6B模型則分別為8萬億、2萬億token。

架構上，Gemma 2從Gemini團隊和Gemma 1沿用了很多方面，包括旋轉位置編碼（RoPE）、SentencePiece分詞器、Logit軟上限、GeGLU激活函數等等。

相比Gemma 1，Gemma 2采用了更深的網絡，且在某些部分做了更新——

局部滑動窗口和全局注意力

Gemma 2交替使用局部滑動窗口和全局注意力，滑動窗口大小設置為4096 token，而全局注意力層的設置為8192 token。

這種方法在正確捕捉文本細節的同時，又能保持對上下文和全局的正確理解。

知識蒸餾

能夠訓練出有競爭力性能的9B和27B模型，成功的知識蒸餾過程估計是最為重要的環節。

傳統訓練大語言模型的方法主要是根據之前的token，預測下一個token，需要大量的數據進行訓練。

但是，人類的學習過程并不依賴走量的知識輸入。比如，一位學生由于閱讀原著的需要學習一門外語，他并不需要看遍所有的書籍，只需要以一本書為綱，通過理解后融會貫通。

而知識蒸餾法與人的學習過程更加類似。一個小模型向另一個已經進行過預訓練的大模型學習，通過這種方式助產小模型對于token的預測。

站在老師模型的肩膀上，學生模型能用較少的訓練數據、更少的參數量提升性能。

用LMSYS數據微調，引AI2研究員質疑

開源模型界終于在Llama之后迎來了Gemma 2這個最新的扛把子選手，就在大家忙著興奮的同時，Allen AI的研究員Nathan Lambert冷靜地在技術報告中發現了華點：

微調數據的來源包括LMSYS的聊天數據集！

似乎是預想到了可能的質疑，論文中特意強調只使用了prompt，把答案剔出去了。

Lambert依舊不認可這種行為。他發了一篇推特，疑惑的語氣中帶著一絲嘲諷：為了在競技場上刷分數，你們谷歌團隊挺有想象力的。

這位Nathan Lambert其實算是LLM領域比較資深的專業人士，他博士畢業于UC伯克利大學，在DeepMind和FAIR都有實習經歷。

針對Lambert的質疑，LMSYS隨后回復了一篇意義不明的超長推特，似乎透露出了為谷歌辯護的隱晦立場。

推特全文如下：

從一開始，Chatbot Arena的使命就是通過人類偏好來解決LLM的評估問題。
通過開放我們的數據集和論文，我們希望社區能研究真實世界的prompt，并利用這些數據改進模型（就像ImageNet的訓練集一樣）。
我們相信，通過實時和新鮮的用戶投票，Arena比靜態基準測試如MMLU更不容易過擬合。
現在，有些人可能對以下兩個方面存在質疑——（1）prompt重復的程度和（ 2）數據分布。這正是我們開放數據和論文研究的原因。
我們的Llama-3博客文章顯示，經過去重之后，大約10%的重復對結果的影響很小。此外，論文還包括對prompt分布的主題建模，展現了跨語言的多樣化使用案例。
展望未來，我們計劃深入了解數據的新鮮度和分布。也歡迎大家用新任務來挑戰模型，研究我們的100萬prompt和偏好數據，或者加入我們的Kaggle挑戰。

這有些讓人摸不著頭腦，既說「用數據改進模型是受歡迎的」，又說「我們開放數據和論文是為了回應質疑」。

發帖的Lambert也同樣被搞糊涂了，他進一步闡明了自己的立場。

「感覺我們討論的不是同一件事，我的觀點依舊成立。很可能有更多的人也在這樣做，但我們并不知道?！?/span>

LMSYS最新回復的內容更加讓人內心復雜——

「對不起，雖然我貼上了你的推特，但不是在特意回復你。」

對于微調應不應該使用LMSYS數據這個問題，評論區的網友也吵得熱火朝天。

有些人覺得Lambert的質疑毫無道理。畢竟LMSYS公開了數據集，用來做微調有什么不可以的？而且只使用了prompt，答案是教師模型生成的。

畢竟大家都在看LMSYS的聊天機器人Arena的分數，如果大家都不用這個數據才比較出乎意料。

這個立場得到了大部分人的認同。雖然谷歌是為數不多的坦誠，敢把用了LMSYS數據這件事寫進論文，但他們絕對不是第一個使用這些數據的人。

「我打賭GPT-4o和Llama 3也這么干了。」

畢竟在一段時間內，LMSYS競技場曾經是唯一可信的基準測試。

而這也正是Lambert所擔心的——LMSYS是業界為數不多的得到大多數人認可的基準測試，如果大家再用它的數據微調甚至訓練，豈不很快又會失去公信力？

更糟糕的情況是，不是每一個模型都像Gemma 2這樣會承認這件事。

不少觀點比較中肯的網友也點出了這一點。

「我相信這會降低Arena的信噪比?！?/span>

看來在基準測試領域，重復的歷史總在不斷上演，而那個金句也總是適用——

「當一個衡量標準成為目標時，它就不再是一個好的衡量標準了?！?/span>

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：激情黄色在线观看 | 国产在线精品一区二区 | 欧美一区在线视频 | 国产在线一区二 | 亚洲黄色一级 | 国产在线观看免费 | 日韩成人一区 | 国产91丝袜在线18 | 国产成人精品久久 | 蜜桃特黄a∨片免费观看 | 亚洲国产91 | 91xx在线观看 | 国产精品亚洲欧美日韩一区在线 | 三级免费毛片 | 色婷婷综合久久久中文字幕 | 国产精品欧美精品日韩精品 | 97av| 日韩一区二区福利视频 | 日本久久黄色 | 久久久久久a| 欧美国产中文 | 欧美一区视频 | 国产精品久久久久久影视 | 国产精品久久久久久久久免费 | 亚洲精品在线播放 | 午夜精品久久久久久久99黑人 | 亚洲性在线 | 久久久久亚洲精品 | 欧美日韩在线看 | 亚洲精品福利视频 | 精品国产乱码久久久久久闺蜜 | 北条麻妃国产九九九精品小说 | 99久久久国产精品 | 色偷偷888欧美精品久久久 | 日韩国产精品一区二区三区 | 精品日韩一区二区 | 欧美色性 | 中文字幕不卡在线观看 | 先锋资源吧 | 二区亚洲| av一区二区三区四区 |

<cite id="a2qwk"></cite>

<s id="a2qwk"></s>

<strike id="a2qwk"><dd id="a2qwk"></dd></strike><abbr id="a2qwk"></abbr>

<button id="a2qwk"><option id="a2qwk"></option></button>

<s id="a2qwk"><dd id="a2qwk"></dd></s>