成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「全球最嚴榜單」,階躍拿下中國TOP 1!殺入世界前五,超過GPT-4o緊跟o1-mini

人工智能 新聞
在「全球最難LLM評測榜單」上,國產萬億參數模型殺入全球第五,拿下中國第一!國內明星初創階躍星辰的這個自研模型太過亮眼,甚至引起了外國網友的熱議。

不低調了!

剛剛,國際權威榜單LiveBench最新榜單出爐,一個國產黑馬閃耀其中。

沒錯,它就是階躍星辰自研的萬億參數大模型Step-2。

Step-2以碾壓之勢,強勢殺入LiveBench全球前五,一舉奪得國內TOP 1。

圖片

更讓人熱血沸騰的是,這款Step-2語言大模型,成為唯一一個沖進榜單前十的中國語言大模型。

根據榜單評測,Step-2成績逼近OpenAI o1-mini(2024-09-12),超越GPT-4o(2024-08-06)、Gemini 1.5 Pro 002等國際主流模型。

Step-2的真實表現,徹底震驚了歪果仁。在Reddit和X上,可謂是熱議連連。

圖片

圖片

太令人印象深刻了!或許OpenAI、Anthropic、DeepMind發布萬億參數模型時,我們也能看到這一結果。

圖片

中國的LLM正在變得強大,一個全新模型登上LiveBench榜單第五名,而且在多個基準測試中超越了GPT-4o,甚至在其中一個基準上擊敗了o1-preview

如今,Step-2以王者姿態,實至名歸。

趕超o1-preview,全憑驚人理解力

根據榜單,在IF Average(指令跟隨)一項中,Step-2的表現超越了所有上榜的國內外模型。

甚至,連OpenAI o1-preview(2024-09-12)也被碾壓式擊敗,領先近10分。

這意味著,Step-2在語言生成上對細節有最強的控制力,模型能夠更好地理解和遵循人類指令。

比如,即便給出模糊的指令,憑借出色的理解能力,Step-2基于上下文推斷用戶的需求,精準捕捉其真實意圖,提供更準確、個性化的響應。

Step-2的與眾不同在于,在知識覆蓋面和深度上,取得了實打實的突破。

不僅能處理常見的領域知識,還能更深層次理解、回答特定領域復雜問題。

在文字創作方面,Step-2更展現出了令人驚嘆的控制力。

它就像一位豐富的文字匠人,比如在創作古詩詞時,對字數、格律、押韻、意境都可以做到精準把握。

Step-2既能生成高質量、有創意的文字內容,又具備了出色的細節控制力,根據用戶指令對文本進行精準調整和優化。

大模型最權威評測,LeCun領銜

值得一提的是,LiveBench是由圖靈獎得主Yann LeCun聯手Abacus.AI、NYU、英偉達等多家機構推出的LLM評測基準。

其含金量,不言而喻。

而且,它被行業譽為「世界上第一個不可玩弄的LLM基準測試」。

圖片

當前,測試集污染,已經成為公平評估大模型面臨的一個普遍問題。

就好比LLM在訓練時偷看了測試數據,使得原有評測失去了意義。

雖然業界嘗試通過人工/LLM打分來收集新提示詞和評估結果,但這種方法會引入新的偏差,特別是在評估復雜問題時表現不佳。

LiveBench就是為了破解這一難題而誕生。

這一創新基準從數學、推理、編程、語言理解、指令遵循和數據分析在內的多個復雜維度對模型進行評估。

而且,它還會每月定期更新,基于最新信息源的測試問題。

每個測試問題都配備了可驗證的、客觀的參考答案,這使得即使是較為復雜的問題也能夠準確且自動地完成評分,無需依賴LLM作為評判標準。

圖片

項目地址:https://livebench.ai/#

為了確保測試的「新鮮度」,它采用了多種創新方法,保證測試內容未受數據污染。

比如,精心設計基于最新數學競賽、arXiv論文、新聞文章和數據集的問題,同時收錄了來自現有評測基準(如Big-Bench Hard、AMPS和IFEval)的改進版任務。

發布之初,研究團隊基于LiveBench對知名閉源模型進行評測,以及對參數規模從5億到1100億參數不等的數十個開源模型進行了評估。

測試結果卻令人深思:即使是最強大的模型,準確率也未能突破65%的天花板。

圖片

足見,LiveBench在大模型評測中的權威性和挑戰性。

這也從側面說明了,能夠躋身TOP 5的模型,必定是真材實料、技術過硬的佼佼者。

那么,究竟是怎樣的技術實力,讓Step-2能夠在如此嚴苛的考驗下脫穎而出?

讓我們一起來揭開這個謎底...

萬億參數Step-2,是怎樣煉成的

今年3月,還是LLM戰場新玩家的階躍星辰,就一口氣發布了千億參數語言大模型Step-1、千億參數多模態大模型Step-1V,以及來自國內大模型初創的首個萬億參數MoE語言大模型Step-2預覽版。

今年7月,Step-2正式亮相后,更是直接躋身國際頂尖模型的行列。

在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面,Step-2的能力和使用體驗已經全方位逼近GPT-4。

目前,階躍星辰已將Step-2接入了C端智能助手「躍問」,在躍問App和躍問網頁端皆可體驗。

圖片

體驗地址:https://yuewen.cn

從千億模型擴展到萬億參數,并不是簡單的「大力出奇跡」,而是需要跨過技術上的「分水嶺」,對各個維度的要求都是水漲船高。

一旦其中任何維度出現短板,Scaling Law都將不再適用,出現「只投入,不產出」的尷尬局面。

為了訓出強悍的Step-2,技術團隊在算法和系統方面都做出了大量的關鍵創新。

階躍星辰創始人、CEO姜大昕博士表示,模型擴大到萬億級別時,MoE幾乎是必選項,這是權衡了性能、參數量、訓練成本、推理成本等各個維度后的最佳選擇。

要訓練如此大規模的MoE模型,有兩條路可走:一是將已有模型進行向上復用(up-cycle)。

這個方案最大的好處,就在于省錢省力,算力需求低、訓練效率高,但會限制模型能力的上限,容易造成比較嚴重的專家同質化。

圖片

為了達到最優性能,階躍星辰團隊選擇迎難而上,沒有采用第一種方案,而是完全自主研發,從頭開始。

Step-2的架構中采用了部分專家共享參數、異構化專家等一系列新穎的設計,充分利用萬億參數。

雖然在MoE架構中,每次訓練或推理只會激活部分參數,但背靠萬億總量,激活的參數量也能超越大部分稠密模型。

當參數增長到萬億級別時,訓練效率至關重要,這離不開高效且穩定的系統部署。

高效,意味著GPU的使用效率高,讓有限的硬件輸出最多的算力;穩定,意味著訓練過程需要持續進行,不能輕易被故障打斷。

即使每張GPU日夜不停連續跑兩個月才出現一次故障,放在萬卡集群中,相當于平均每10分鐘就有一張卡出問題。

如果沒有自動的故障檢測和恢復機制,每張卡出問題時都要恢復檢查點、重啟訓練,不僅工程師不用睡覺了,模型的訓練周期更是成倍拉長。

在Step-2訓練過程中,階躍星辰的系統團隊突破了6D并行、極致顯存管理、完全自動化運維等關鍵技術,從高效、穩定兩個層面同時發力,才能在3個月的時間內發布新模型。

如今,哪條是通往AGI的坦途,業內大佬們依舊爭論不一。

從Step-2霸榜驚艷表現,到多模型齊頭并進,階躍星辰展現出一家頂尖AI公司應有的實力和遠見。

這不僅僅是一個技術突破的見證,更是一個關于中國AI力的最好注腳。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-18 09:00:00

2024-09-23 16:00:00

AI模型測評

2024-06-05 08:29:35

2024-09-29 13:07:16

2024-05-21 12:23:17

2024-05-21 12:22:38

2024-07-19 12:43:34

2024-07-22 15:13:24

2024-10-17 14:05:34

2024-05-24 14:04:04

2024-12-09 07:00:00

o1-mini模型強化微調OpenAI

2025-01-06 13:15:02

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2025-04-08 02:26:00

2024-09-19 17:44:04

2024-10-17 13:30:00

2025-01-02 13:00:00

2025-05-22 13:42:28

大模型AIGPT-4o

2025-03-31 08:44:00

GPT-4o模型技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品欧美二区 | 精品亚洲第一 | 一区二区三 | 日韩三级 | 97avcc | 81精品国产乱码久久久久久 | 久久久久国产一区二区三区四区 | 国产精品日韩欧美一区二区三区 | 国产精品久久久久久久 | 欧美日韩成人影院 | 毛片网站在线观看 | 天天操天天天 | 免费久久网| 操操操日日日 | 国产一区视频在线 | 色伊人 | 超碰人人在线 | 在线中文字幕视频 | 午夜日韩 | 91亚洲欧美 | 国产成人免费视频网站高清观看视频 | 亚洲日本一区二区三区四区 | 亚洲免费观看视频 | 久久成人综合 | 欧美一级二级三级视频 | 91在线电影| 在线观看免费福利 | 青娱乐一区二区 | 欧美视频中文字幕 | 国产精品一区二区三区四区 | 九九久久99 | h视频在线观看免费 | 亚洲成人精品在线 | 国产精品不卡一区二区三区 | 国产精品日韩欧美一区二区三区 | 国产一区二区三区四区三区四 | 免费黄色a视频 | 久久久久久免费观看 | 欧美视频三级 | 亚洲精品1区 | 99精品国产一区二区青青牛奶 |