「全球最嚴榜單」，階躍拿下中國TOP 1！殺入世界前五，超過GPT-4o緊跟o1-mini

作者：新智元 2024-11-21 09:58:12

人工智能新聞

在「全球最難LLM評測榜單」上，國產萬億參數模型殺入全球第五，拿下中國第一！國內明星初創階躍星辰的這個自研模型太過亮眼，甚至引起了外國網友的熱議。

不低調了！

剛剛，國際權威榜單LiveBench最新榜單出爐，一個國產黑馬閃耀其中。

沒錯，它就是階躍星辰自研的萬億參數大模型Step-2。

Step-2以碾壓之勢，強勢殺入LiveBench全球前五，一舉奪得國內TOP 1。

更讓人熱血沸騰的是，這款Step-2語言大模型，成為唯一一個沖進榜單前十的中國語言大模型。

根據榜單評測，Step-2成績逼近OpenAI o1-mini（2024-09-12），超越GPT-4o（2024-08-06）、Gemini 1.5 Pro 002等國際主流模型。

Step-2的真實表現，徹底震驚了歪果仁。在Reddit和X上，可謂是熱議連連。

太令人印象深刻了！或許OpenAI、Anthropic、DeepMind發布萬億參數模型時，我們也能看到這一結果。

中國的LLM正在變得強大，一個全新模型登上LiveBench榜單第五名，而且在多個基準測試中超越了GPT-4o，甚至在其中一個基準上擊敗了o1-preview

如今，Step-2以王者姿態，實至名歸。

趕超o1-preview，全憑驚人理解力

根據榜單，在IF Average（指令跟隨）一項中，Step-2的表現超越了所有上榜的國內外模型。

甚至，連OpenAI o1-preview（2024-09-12）也被碾壓式擊敗，領先近10分。

這意味著，Step-2在語言生成上對細節有最強的控制力，模型能夠更好地理解和遵循人類指令。

比如，即便給出模糊的指令，憑借出色的理解能力，Step-2基于上下文推斷用戶的需求，精準捕捉其真實意圖，提供更準確、個性化的響應。

Step-2的與眾不同在于，在知識覆蓋面和深度上，取得了實打實的突破。

不僅能處理常見的領域知識，還能更深層次理解、回答特定領域復雜問題。

在文字創作方面，Step-2更展現出了令人驚嘆的控制力。

它就像一位豐富的文字匠人，比如在創作古詩詞時，對字數、格律、押韻、意境都可以做到精準把握。

Step-2既能生成高質量、有創意的文字內容，又具備了出色的細節控制力，根據用戶指令對文本進行精準調整和優化。

大模型最權威評測，LeCun領銜

值得一提的是，LiveBench是由圖靈獎得主Yann LeCun聯手Abacus.AI、NYU、英偉達等多家機構推出的LLM評測基準。

其含金量，不言而喻。

而且，它被行業譽為「世界上第一個不可玩弄的LLM基準測試」。

當前，測試集污染，已經成為公平評估大模型面臨的一個普遍問題。

就好比LLM在訓練時偷看了測試數據，使得原有評測失去了意義。

雖然業界嘗試通過人工/LLM打分來收集新提示詞和評估結果，但這種方法會引入新的偏差，特別是在評估復雜問題時表現不佳。

LiveBench就是為了破解這一難題而誕生。

這一創新基準從數學、推理、編程、語言理解、指令遵循和數據分析在內的多個復雜維度對模型進行評估。

而且，它還會每月定期更新，基于最新信息源的測試問題。

每個測試問題都配備了可驗證的、客觀的參考答案，這使得即使是較為復雜的問題也能夠準確且自動地完成評分，無需依賴LLM作為評判標準。

項目地址：https://livebench.ai/#

為了確保測試的「新鮮度」，它采用了多種創新方法，保證測試內容未受數據污染。

比如，精心設計基于最新數學競賽、arXiv論文、新聞文章和數據集的問題，同時收錄了來自現有評測基準（如Big-Bench Hard、AMPS和IFEval）的改進版任務。

發布之初，研究團隊基于LiveBench對知名閉源模型進行評測，以及對參數規模從5億到1100億參數不等的數十個開源模型進行了評估。

測試結果卻令人深思：即使是最強大的模型，準確率也未能突破65%的天花板。

足見，LiveBench在大模型評測中的權威性和挑戰性。

這也從側面說明了，能夠躋身TOP 5的模型，必定是真材實料、技術過硬的佼佼者。

那么，究竟是怎樣的技術實力，讓Step-2能夠在如此嚴苛的考驗下脫穎而出？

讓我們一起來揭開這個謎底...

萬億參數Step-2，是怎樣煉成的

今年3月，還是LLM戰場新玩家的階躍星辰，就一口氣發布了千億參數語言大模型Step-1、千億參數多模態大模型Step-1V，以及來自國內大模型初創的首個萬億參數MoE語言大模型Step-2預覽版。

今年7月，Step-2正式亮相后，更是直接躋身國際頂尖模型的行列。

在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面，Step-2的能力和使用體驗已經全方位逼近GPT-4。

目前，階躍星辰已將Step-2接入了C端智能助手「躍問」，在躍問App和躍問網頁端皆可體驗。

體驗地址：https://yuewen.cn

從千億模型擴展到萬億參數，并不是簡單的「大力出奇跡」，而是需要跨過技術上的「分水嶺」，對各個維度的要求都是水漲船高。

一旦其中任何維度出現短板，Scaling Law都將不再適用，出現「只投入，不產出」的尷尬局面。

為了訓出強悍的Step-2，技術團隊在算法和系統方面都做出了大量的關鍵創新。

階躍星辰創始人、CEO姜大昕博士表示，模型擴大到萬億級別時，MoE幾乎是必選項，這是權衡了性能、參數量、訓練成本、推理成本等各個維度后的最佳選擇。

要訓練如此大規模的MoE模型，有兩條路可走：一是將已有模型進行向上復用（up-cycle）。

這個方案最大的好處，就在于省錢省力，算力需求低、訓練效率高，但會限制模型能力的上限，容易造成比較嚴重的專家同質化。

為了達到最優性能，階躍星辰團隊選擇迎難而上，沒有采用第一種方案，而是完全自主研發，從頭開始。

Step-2的架構中采用了部分專家共享參數、異構化專家等一系列新穎的設計，充分利用萬億參數。

雖然在MoE架構中，每次訓練或推理只會激活部分參數，但背靠萬億總量，激活的參數量也能超越大部分稠密模型。

當參數增長到萬億級別時，訓練效率至關重要，這離不開高效且穩定的系統部署。

高效，意味著GPU的使用效率高，讓有限的硬件輸出最多的算力；穩定，意味著訓練過程需要持續進行，不能輕易被故障打斷。

即使每張GPU日夜不停連續跑兩個月才出現一次故障，放在萬卡集群中，相當于平均每10分鐘就有一張卡出問題。

如果沒有自動的故障檢測和恢復機制，每張卡出問題時都要恢復檢查點、重啟訓練，不僅工程師不用睡覺了，模型的訓練周期更是成倍拉長。

在Step-2訓練過程中，階躍星辰的系統團隊突破了6D并行、極致顯存管理、完全自動化運維等關鍵技術，從高效、穩定兩個層面同時發力，才能在3個月的時間內發布新模型。

如今，哪條是通往AGI的坦途，業內大佬們依舊爭論不一。

從Step-2霸榜驚艷表現，到多模型齊頭并進，階躍星辰展現出一家頂尖AI公司應有的實力和遠見。

這不僅僅是一個技術突破的見證，更是一個關于中國AI力的最好注腳。

責任編輯：張燕妮來源：新智元

AI 模型測評

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「全球最嚴榜單」，階躍拿下中國TOP 1！殺入世界前五，超過GPT-4o緊跟o1-mini

趕超o1-preview，全憑驚人理解力

大模型最權威評測，LeCun領銜

萬億參數Step-2，是怎樣煉成的