成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

九成以上模型止步白銀段位,只有3個鉑金!通用AI下半場評測標準來了

人工智能 新聞
近期,一支來自新加坡國立大學(NUS)和南洋理工大學(NTU)等機構領銜的團隊的研究,圍繞了通用多模態模型的評估而非訓練展開。

引言:從“解題”到“定義問題”,評測引領AI下半場

OpenAI 研究員姚順雨最近在其博文《AI 下半場》中提出了振聾發聵的觀點:人工智能的發展正步入一個全新的階段。在上半場,我們習慣于專注模型架構與訓練方法的突破;而如今,下半場的關鍵在于如何評估模型的真實智能。“接下來,AI 的重點將從解決問題轉向定義問題。在這個新時代,評估的重要性將超過訓練”。換言之,我們需要像產品經理那樣重新思考應該讓 AI 解決什么問題、以及如何衡量“解決得好”。過去,Transformer、AlexNet、GPT-4 等里程碑工作讓算法和模型大放異彩;但在下半場,比拼的不再是誰的模型更大、更強,而是誰能定義出更有效的評測標準,推動 AI 朝著對人類真正有用的方向演進。

這樣的理念正在獲得實踐的支撐。近期,一支來自新加坡國立大學(NUS)和南洋理工大學(NTU)等機構領銜的團隊的研究,圍繞了通用多模態模型的評估而非訓練展開。這篇題為《On Path to Multimodal Generalist: General-Level and General-Bench》的論文提出了全新的“通才智能”評測框架,旨在為多模態大模型(Multimodal Large Language Model, MLLM)的能力設立一把更合適的標尺。該團隊強調,只有轉變思路,把精力投向評測體系的革新,我們才能真正衡量 AI 是否在朝著通用智能(AGI)的目標邁進。正如姚順雨所言,下半場 AI 的勝負手在于評測標準的制定,而非一味堆砌訓練技巧。這項超過 300 頁的研究由超過 30 位研究者共同完成,核心作者團隊來自新加坡國立大學、南洋理工大學,聯合了浙江大學、北京大興、羅切斯特大學等多家機構的學者,這支跨學科、跨地域的多元團隊集合了計算機視覺、多模態、NLP 等領域的專家。該工作錄用于國際機器學習大會 ICML 2025(Spotlight 論文),在眾多投稿中脫穎而出,獲得評審高度評價。該工作將期待為未來的通用多模態大模型的發展指明一條明道。

圖片

“通才智能”之問,多模態大模型的短板:“拼接怪”難言智能

該工作瞄準的是多模態大模型如何進化為“全能通才”的重大命題。論文之所以引發矚目,源于其聚焦的核心問題:當前的多模態大模型到底離“通才智能”有多遠?隨著 GPT-4、PaLM-E、Deepseek 等模型不斷涌現,業界開始暢想 AI 從各自為戰的“專才”走向舉一反三的“通才”。但一個現實挑戰是,缺乏衡量“通才智能”的統一標準——過往評測往往各自為政、碎片化,難以回答“大模型是不是更通用了”這一根本問題。為此,該團隊提出了 General-Level 評估體系和 General-Bench 測試集,希望為 AI 社區提供一個公認的“通才智能”試金石。正如論文指出的,那些在各項任務上指標再高的模型,也未必真正更接近人類水平智能。我們需要新的評估范式來定義問題、發現短板,照亮通往 AGI 的路徑。這正契合了“AI 下半場”的時代精神,也難怪工作一經發布就收獲了學術界和工業界的密切關注。

在踏上“通才”之路前,團隊首先剖析了當前絕大部分的多模態大模型(無論是多模態基礎模型還是多模態智能體)存在的瓶頸。論文一針見血地指出:現有的大部分的多模態模型基本是基于“語言智能 LLM”所二次構建的“間接式多模態智能”,類似于用膠水拼接起來的“縫合怪”。雖然它們可以同時處理圖像、文本、視頻等等多種模態,但本質上往往是不同模塊的堆疊+二次微調:比如用預訓練視覺編碼器接上語言模型,讓模型“看圖說話”。這種架構上的松耦合導致模型更像多個專才的拼盤,而非一個真正融會貫通的通才。這樣的“多模態 Frankenstein”只是在語言智能的基礎上外掛視覺、聽覺接口,其多模態推理過程很大程度上仍依賴底層的大語言模型對文本的強大記憶和關聯能力。模型缺乏各模態間的深度協同,更談不上原生多模態智能,實現在跨模態/任務之間舉一反三。

圖片

不僅如此,簡單地用傳統任務準確率去評價這些模型,往往會產生誤導。很多現有的 MLLM benchmarks 看似涵蓋多模態任務,但不同模型各擅勝場:有的專精圖像問答拿高分,有的擅長視頻描述拔頭籌。然而,這些分數的堆疊并不等于智能的提升。正如作者所質疑的,難道任務指標高就代表模型更接近人類智能了嗎?答案遠非如此簡單。舉個例子,一個模型如果靠暴力記憶在封閉題庫上取得高分,并不能說明它具備通用理解力。同樣,一個只會在單一模態侃侃而談的模型,換個場景就可能語焉不詳。由此可見,僅以各項任務的準確率為標準來衡量智能是片面的。當前的 MLLM 存在三大典型短板:

  • “拼接”導致偏科嚴重:大多數多模態模型只在擅長的領域表現亮眼,超出熟悉范疇就束手無策。例如很多模型能做到基本的“看圖說話”,但遇到“聽聲音畫圖”或“看視頻改劇本”一類跨模態任務就抓瞎,仿佛一個偏科的學霸。這說明它們缺乏各模態技能的均衡發展,更沒有真正將不同能力融會貫通。
  • 生成能力薄弱:“紙上談兵”:目前的 MLLM 普遍在內容生成上乏力。比如 GPT-4V 可以精確描述《蒙娜麗莎》的細節,但要讓它畫一張簡筆畫卻完全辦不到。很多模型充當了很好的解說員,卻當不好創作者,正所謂理論一流但實踐欠佳。這種“只懂描述不會創作”的現象表明,模型缺失了主動生成、多模態創作的能力。
  • 單向協作,缺乏“通感”:更深層的瓶頸在于,模型在不同模態間的知識遷移并不對等。目前往往是語言智能幫助了圖像理解(例如利用 LLM 的知識提升了視覺問答表現),但反過來,視覺等其他模態的學習卻并未真正提升模型的語言表達或推理能力。這意味著模型各模塊之間沒有形成雙向增強的閉環,好比你看再多名畫也無法直接提高寫詩水平。真正的通才 AI 應當具備“通感”式的協同學習——各種模態互相促進,而非各顧各的單箭頭輸出。

綜上,當前的多模態大模型更像多個專家的簡單拼合,遠未形成跨模態的融會貫通。針對這些短板,評估標準也必須升級,才能暴露模型的真實能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定義和衡量通才智能”這一問題,為 AI 下半場奠定新的競賽規程。

General-Level 五級評估體系:用“協同效應”定義通才智能

要評估“通才智能”,該論文借鑒了自動駕駛分級評估的思路,創造性地提出了 General-Level 五級能力段位體系。它將多模態模型的能力劃分為由低到高的五個段位,從“專才”一直到“通才”。評判標準的核心是模型是否展現出 Synergy(協同效應)——也就是不同模態、不同任務間是否互相賦能General-Level 評估體系以“協同效應 (Synergy)”為核心,將多模態模型劃分為五個能力等級,從青銅級的專才到王者級的通才,每升高一級意味著更強的協同效應。簡而言之,一個真正的通才型 AI,其在某一模態/任務上學到的本領應能遷移并增強它在其他模態/任務上的表現,實現“1+1>2”的效果。

圖片

具體來說,General-Level 將 MLLM 劃分為如下五個等級,:

  • Level-1(青銅級):“單科”專才。此級別對應各領域的單任務專家。模型只針對特定模態的特定任務進行了優化,比如只會圖像分類或語音識別等。它們在各自狹窄領域表現卓越,但不具備跨任務、跨模態的一般性。絕大多數傳統 AI 模型(如只會識別圖片的 ResNet 或只會翻譯的 Transformer)都屬于青銅段位。
  • Level-2(白銀級):“多任務拼接”。這一級別是初級的多任務模型。模型能夠支持不同模態或任務的輸入輸出,具備一定的通用性,例如一些視覺語言模型能看圖回答也能文本生成。但是,這類模型通常采用模塊拼接的方式整合功能,沒有內部的協同增益。它們可以看作把若干青銅專才打包在一起的“綜合體”,只能完成預先設計好的多種任務,卻無法因為會做任務 A 而自動在任務 B 上做得更好。因此白銀級被定義為“無協同效應”(No Synergy)——模型支持的任務越多、性能越高,段位評分越高,但并不要求跨任務有互助提升。
  • Level-3(黃金級):“跨任務協同”。黃金段位要求模型開始展現任務級別的協同效應。也就是說,模型在同一范式下的多個任務(例如都屬于理解類任務,或都屬于生成類任務)上通過聯合學習,實現了 1+1>2 的效果:相比各任務獨立訓練的專家,通用模型因知識共享反而在若干任務上超越了單 task SOTA。這被視為出現了任務級協同(Task-level Synergy)的證據。評估方法是,將模型在每個任務上的成績與該任務單任務專家的 SOTA 成績比較,如果超越 SoTA 則記為一次協同加成。模型超越的任務越多、幅度越大,Level-3 評分越高。達到黃金段位,意味著模型不再只是簡單兼顧多任務,而是因為多任務并舉而在部分任務上表現得更好了。這標志著通才智能的開端:知識開始在相近任務間融通。正如通俗類比:“模型學會了修圖之后,拍照水平也提高了”。
  • Level-4(鉑金級):“理解-生成范式雙修”。在這個級別,模型需要展現范式級的協同效應,即同時精通理解類任務和生成類任務,并且兩種能力互相促進。所謂理解與生成的協同,可以理解為模型的閱讀理解、分析判斷能力和創意生成、內容創造能力是融會貫通的,不會出現一條腿長一條腿短。評估上,Level-4 通過計算模型在理解任務和生成任務上的成績調和平均數,來看兩者是否保持均衡高水平。只有當模型在“看”和“寫”兩方面都表現出色且互相補益,才能晉級鉑金段位。這對應人類能力中的“既能讀懂復雜文章又能寫出好文章”。達到這一層次,模型已不再局限于單一任務范式的高手, 而是實現范式級協同(Paradigm-level Synergy),成為了跨范式的全才——既能看圖說話,又能據圖生文。例如論文將其比喻為“既能準確描述一部電影,又能續寫其劇情”。
  • Level-5(王者級):“全模態互促的通才”。這是評估體系的頂點,代表真正實現了跨模態的全面協同。王者級模型不僅在視覺、聽覺、文本的理解和生成各方面均衡強大,更實現了語言和非語言模態之間的相互賦能。換言之,模型具備高度的“通感”能力:語言智能可以加強視覺/聽覺智能,反之視覺、聽覺等多模態的感知也能反饋提升語言理解與表達。這就如同人類看到一幅畫作能激發靈感寫詩,反過來詩歌修養又豐富了對畫作的解讀。這種全模態協同效應(Cross-modal Total Synergy)是通才智能的終極標志。在評價上,如果模型在純語言的 NLP 任務上也能超過單模態語言模型的 SOTA,并將這種能力融入多模態任務中,即可視為出現了完全協同。然而正如榜單所示,截至目前尚無模型達到王者段位,我們還在等待“多模態版的 ChatGPT 時刻”。

圖片

通過 General-Level 這個分級體系,研究者為“通才智能”提供了一個清晰的定義標準:不是看模型會多少項任務,而是看它是否能在多任務、多模態中實現協同增益。協同效應成為評估的核心指標,直接衡量模型的“通才度”。這套體系如同給多模態模型劃定了晉級之路:從雜技般的拼湊,到初步融合產生化學反應,最終邁向模態互通的 AGI。這正如姚順雨所呼吁的,要“重新思考評估設置并創造新的評估”,不斷質疑舊假設、引入新任務,才能推動 AI 突破現有套路。General-Bench 由此成為多模態 AI 下半場的一座里程碑,為行業提供了共同的試煉場。正因如此,General-Level 可被稱為“通才智能的新衡量尺”:它定義了未來多模態模型努力的方向,也為我們診斷現有模型的不足提供了依據。

General-Bench 通才測試集:700 項任務煉金“全能 AI”

有了評估等級的標準,還需要相應“考卷”來對模型進行全面測評General-Bench 正是為此打造的一套大規模多模態通才測試集。這套 Benchmark 題庫堪稱 MLLM 史上最全面、最嚴苛、最大規模的多模態考試:它囊括了 700 種不同任務、合計約 32.58 萬道問題,覆蓋圖像、視頻、音頻、3D 點云、文本等 5 大最常見模態。從常規的圖文理解,到開放式生成,再到跨模態推理,General-Bench 努力構建一個全面考察模型多方面能力的競技場。

圖片

具體而言,General-Bench 在設計上有以下顯著特點:

  • 任務多元,場景豐富:測試集涵蓋了 145 項多模態技能,29 個應用場景。既包括常見的“看圖說話”圖像描述、視覺問答等基礎題,也有諸如“聽聲音畫圖”、“讀文章配視頻”等燒腦的跨模態挑戰。領域上橫跨物理、幾何、醫學、歷史、藝術、人文學科等,讓模型面對如同人類考試文理綜合的難題。舉例來說,可能出現一道物理題附帶復雜圖表,或一道歷史題給出文物的 3D 模型讓模型辨析。如此廣泛的覆蓋,旨在測試模型是否具備跨學科、跨模態的知識整合能力。
  • 理解+生成,全方位考察:與以往偏重選擇題式的評測不同,General-Bench 注重開放式回答和內容生成。在這套考題中,模型面對的大多是非選擇題,需要自由作答而非從選項中猜測。同時,相當比例的任務直接要求模型生成內容,例如看一段視頻續寫劇情、聽一段音樂創作繪畫等。這意味著模型不僅要會判斷對錯,還要有創造性產出的本領。這樣的設計可以有效測出模型的生成能力和創造力,補足過去評測只重理解、不重生成的缺陷。正如作者強調的,未來的 AI 需要“既會看,還會畫”——既能理解輸入,也能產生輸出。
  • 真正多模態考題:General-Bench 的一大創新是設計了跨模態組合的問題,以考察模型同時處理多模態信息的能力。在這里,任務不再是孤立的圖像問答或文本總結,而是常常多模態交織:比如給模型一段音樂音頻,要求它畫出相應風格的圖畫;或者給出一段視頻和一篇文章,讓模型將兩者信息融合進行分析。這類似于人類需要將眼睛看到的和耳朵聽到的綜合起來理解世界。如果說過去的基準測試更多是在考“單科”,那么 General-Bench 就是一場跨媒體、跨領域的綜合性大考,逼真地模擬了 AI 在真實世界可能遇到的復雜任務。通過這些融合型題目,可以檢驗模型在多模態協同上的能力,看看它是否真的能像人一樣將不同感官的信息打通。

如此龐大的題庫是如何構建的?研究團隊為保證質量和覆蓋面,采用了嚴謹的五步數據構建流程。首先,他們明確了數據集的范圍和結構:確定納入哪些模態、元任務類型和回答范式。接著,團隊廣泛搜集潛在任務,通過爬取學術論文、開源數據集、在線平臺等渠道匯總任務清單。隨后,對每個候選任務的數據進行清洗篩選,并按照統一格式整理。整個過程中遵循“盡可能全面、多樣,同時確保質量和真實性”的原則。最終產出的 General-Bench 既有開放部分(Open-Set,提供題目和標準答案,供研究者自由使用)也有閉卷部分(Close-Set,僅提供題目,答案保密用于官方評測)。這種開放+閉卷雙軌設計,既鼓勵學術社區廣泛采用 Benchmark,又保證了排行榜評測的公平性。可以說,General-Bench 為評估多模態通才搭建了一個高標準競技場。它的價值不僅在于出了一套難題,更在于樹立了評測新風向:強調開放生成、強調多模態融合、強調動態擴展(團隊稱數據集將持續更新維護)。

榜單揭曉:GPT-4 段位幾何?行業瓶頸盡現

當如此嚴苛的 General-Bench 試卷擺在當前頂尖模型面前,會是怎樣的光景?論文對 100 多個先進的多模態模型在 700 多個跨模態任務上進行了測試(測試時間是 24 年底之前的多模態大模型,跟當前最新的一些版本模型稍有時間上的延遲),結果可以說是幾家歡喜幾家愁,更讓人大跌眼鏡。一些業界公認強大的模型在這場通才大考中顯露出意想不到的短板。下面我們揭曉部分關鍵結果:

  • GPT-4V(含視覺能力的 GPT-4):這可能是公眾眼中最強大的多模態模型之一。然而在 General-Bench 上,GPT-4V 的表現并非無懈可擊。統計顯示,GPT-4V 只回答了約 65% 的圖像相關問題,對于視頻類題目更是幾乎束手無策。這意味著在接近三分之一的視覺題上,GPT-4V 要么答不出要么答錯,更遑論對復雜的視頻理解了。作為對比,一款開源模型 InternVL2.5-8B 在圖像理解方面的得分竟然超過了 GPT-4V,頗令人為之一驚。這提示我們:大模型未必在所有細分能力上都占優勢,有時小模型專精優化反而更勝一籌。另外,GPT-4V 缺乏視頻處理能力暴露出其模態覆蓋不足——這也直接將其評估段位限制在了更低級別。
  • 多模態模型整體弱項:General-Bench 的統計還發現,所有模型在音頻類任務上的平均得分不足 30/100,幾乎集體不及格。在需要解析語音、音樂的題目上,不論是大名鼎鼎的 GPT-4V 還是其他模型,表現都不理想。這反映出當前視覺-語言模型對聲音的理解和生成還非常初級。更夸張的是,在 3D 相關任務上所有模型幾乎全軍覆沒,最好的正確率僅有 6.7%!可見,處理三維模型、點云這樣的高級感知任務,對現有 AI 仍是巨大挑戰。

如果說按模態分解的成績讓人大跌眼鏡,那么匯總到段位評定上則更顯殘酷:

  • 九成以上模型止步“白銀”。據統計,約 90% 的模型只能達到 Level-2 白銀段位。也就是說,它們頂多支持了若干模態和任務的組合,但沒有體現出明顯的協同泛化效應。換言之,這些模型只是勉強合格的“多面手”,尚未真正做到“融會貫通”。這當中不乏參數上千億的大模型,可見規模大不等于段位高。
  • 寥寥數款模型躋身“鉑金”。在測試中,只有 3 個模型達到了 Level-4 鉑金段位。論文提及其中包括名為 Mini-Gemini 的模型等,它們展現出了理解與生成能力的協同效應。然而值得注意的是,這些鉑金段位的模型其協同效應主要局限在圖文領域。也就是說,它們基本都是在視覺-語言這兩種模態下達到了理解+生成雙優,但在更廣泛的音頻、視頻等模態上未能實現同等協同。換句話說,目前的鉑金通才還是“片面的通才”,距離全能尚有距離。
  • “王者段位”依然空缺。最令人警醒的是,Level-5 王者級別完全沒有模型觸及。沒有任何參評模型能夠證明自己的語言智能被其他模態提升,或能將視覺、聽覺等學習反饋改進 NLP 能力。這印證了前文提到的單向協同問題:目前還沒有 AI 達到全模態互促的境界。王者寶座依舊虛位以待,這也意味著距離真正的多模態 AGI 還有相當的鴻溝。

圖片

General-Level 整體排行榜展示了不同模型所處的段位分布。如上圖所示,目前絕大多數模型停留在 Level-2 和 Level-3,僅有極少數攀上 Level-4 鉑金,而 Level-5 王者段位(黃色階梯)尚無模型問鼎。這張圖直觀地回答了“你的多模態模型是青銅還是王者?”這一問題。

通過這次前所未有的通才測試,現有 MLLM 的三大致命弱點也徹底暴露無遺:

  1. 偏科嚴重,通用性欠缺:模型對特定模態任務駕輕就熟,但一遇到跨模態的新題型就表現失常。這說明當前模型通用性名不副實,“見多識廣”還遠遠談不上。是可能是實現“多模態通才”這一宏大目標最基本的障礙。
  2. 生成乏力,缺少創造:大部分模型在理解任務上還能應付,但讓它們產出內容就頻頻失敗。AI 缺乏像人一樣靈活輸出新內容的創造力,這將限制其解決實際問題的能力。
  3. 協同單向,缺乏通感:模型內部各模塊沒有形成雙向增強。語言和視覺等智力沒有真正融合,造成知識遷移的瓶頸。這也是為何最高段位遲遲無人問津的原因。

圖片

圖片


圖片

這些發現無疑給業界敲響了警鐘:再強大的單點模型,在通才智能的新坐標系下都可能暴露短板。GPT-4 這樣的巨頭依然在視頻、音頻、3D 等維度力不從心,更遑論實現模態互促的飛躍。這充分證明,我們需要新的評測標準來發現和正視這些瓶頸,然后對癥下藥地改進模型。General-Level 和 General-Bench 正提供了這樣的放大鏡和標尺,讓我們看清 AI 通往 AGI 道路上的真實差距。

社區反響:評測框架引熱議,開放平臺促協作

General-Level 和 General-Bench 的推出,近期在學術界和工業界都引起了積極反響。首先,這項工作獲得了頂會 ICML 的 Spotlight 認可,證明同行專家們高度認同其創新性和重要性。許多國外研究者在社交媒體上評論、轉發該工作,稱其為“AGI 時代評測范式的里程碑”。在開源社區,General-Bench 基準受到了熱烈歡迎。論文作者將數據集發布在 Hugging Face 平臺,并開放了評測代碼和排行榜系統。Hugging Face 上聚集了一批關注者,不少開發者加入項目組織成為成員,共同維護數據。有社區貢獻者開始考慮提交新的任務數據,希望擴充 General-Bench 的覆蓋范圍。這種開源協作氛圍正是作者期望的——讓評測框架成為全社區共同的基礎設施,持續完善并被廣泛采用。

與此同時,排行榜(Leaderboard)競賽的形式也激發了良性競爭。General-Level 官方網站上線了實時榜單和提交入口,任何人都可以上傳自己模型在 Close-Set 測試集上的預測結果,獲取官方評估分數和段位定位。這一機制吸引了業界一些領先 AI 團隊參與,不僅有學術實驗室,也有企業研發部門。大家都希望嘗試讓自家模型沖擊更高段位,并將結果分享出來交流,比如“某某模型為何只能停留在白銀段位,差距在哪”;“我們發現模型在音頻理解上扣分嚴重,看來下個版本必須補上聽覺模塊的短板。”團隊負責人稱,將會長期維護這個項目,確保社區所有的多模態大模型都能夠無門檻使用這個項目的資源。

歡迎公開打榜,Leaderboard:https://generalist.top/leaderboard 

圖片

圖片

團隊與研究背景:跨領域協作共筑評測基石

這樣的突破性工作背后,是一支大規模的團隊。該項目由新加坡國立大學(NUS)與南洋理工大學(NTU)牽頭,匯集了計算機視覺、多模態理解、自然語言處理等方向的青年、資深專家學者。本工作由費豪博士主導整體項目推進,并分別由周源、李俊成、李祥泰、徐青山、李波波、吳勝瓊博士等青年學者分別領銜各個模態、模塊;并全稱由張含望教授、顏水成教授坐鎮通訊指導,由蔡達成教授、羅杰波教授作為項目顧問。據團隊成員介紹,最初萌生這個想法,是在看到多模態模型不斷刷新各種 Benchmark 的同時,卻缺乏對整體智能水平的刻畫。“我們訓練出了很多擅長某一方面的模型,但很難說清楚 AI 整體上進步了多少”,張含望教授在相關研討會上如此闡述初衷,“我們不妨借鑒自動駕駛行業的智能汽車分級機制,重新思考對于多模態大模型的智能分級體系”。于是大家決定索性換一個視角,不再糾結于在單一基準上卷 0.1% 的精度提升,而是設計一個能全面衡量多模態 AI 的框架。通過多次大量的內部討論,最終確定了一個核心觀點,“我們不能按照過去的簡單的單個任務表現來評定模型的智能水平,而是應該按照協同泛化能力!”。一開始這個想法并不被所有人看好,因為意味著要投入巨大精力構建數據集、協調不同領域知識。但團隊迎難而上,不斷打磨 General-Level 算法設計,花了超過一年多的時間收集、標注清洗數據,與此同時耗費大量人力(超過 50 多位實際貢獻者)和計算資源對超過 100 多個多模態大模型在 700 多個任務 30 多萬條數據上進行大規模的評測,終于使整個項目成型。可以說,這項成果既是技術創新的結晶,也是對 AI 評測理念的一次重要實踐。

可以說,General-Level/General-Bench 不僅是一套評測工具,更是在推廣一種全新的“評測文化”。AI 社區從原先熱衷跑單項指標,開始轉向思考模型的全面素質;從比拼參數規模,轉向比拼誰的 AI 更平衡、更通達。這種風向的變化正驗證了姚順雨的論斷:AI 下半場,比的不是算法炫技,而是誰能定義正確的問題并找到衡量進步的方法。General-Level 的框架為大家提供了一個共同語言和目標,接下來就要看各路英雄如何在這新標尺下磨煉升級了。

展望:評測范式革新推動 AGI 落地

在 AI 通往 AGI 的征途上,評測標準的突破將起到指南針的作用。General-Level 和 General-Bench 的問世,正標志著業界從“算法為王”轉向“評測為王”的思維轉變。在這個全新的評測范式下,我們期待看到以下變化:

  • 研發重心轉移:研究人員將更加重視模型的全面能力而非單點絕活。模型設計將從過去的“拼裝式”朝“熔爐式”演進,力求不同模態在架構上深度融合以增強協同效應。因為新的評測會倒逼大家解決偏科和單向協同的問題,下一代模型可能在多模態統一建模、跨模態信息流動方面迎來突破。
  • 評測生態完善:隨著 General-Bench 等基準流行,未來會有更多類似動態任務庫加入評測體系,比如引入代碼生成、機器人操作、觸覺反饋等新類型任務。評測將不再是固定的一套試題,而會不斷擴充,貼近真實世界需求。這將鼓勵 AI 系統具備持續學習和適應新任務的能力,而不只是針對靜態測試集優化。
  • AGI 進程加速:有了明確的通才智能目標(王者段位)和衡量路徑,業界在朝 AGI 前進時將少走彎路。當模型在評測中逐級攀升,我們便能量化地看到 AI 離仿真人類智能還有多遠。正如論文預測的那樣:當某天 AI 能夠通過“王者段位”的考核,真正的 AGI 或許也就呼之欲出了。雖然這一天仍未到來,但現在有了一個公認的指標去追求,無疑會大大加速 AGI 落地的步伐。

在此,我們呼吁 AI 研究社區廣泛采用 General-Level 和 General-Bench 框架。一套統一的評估標準,將使得不同模型的優劣高下有據可依,也方便大家協同改進。更重要的是,它能引導我們聚焦于模型綜合素質的提升,而不是陷入無盡的參數競賽或刷榜游戲。這與姚順雨所倡導的“像產品經理一樣思考”不謀而合:先想清楚我們究竟希望 AI 為人類做什么、有哪些能力,然后再去改進算法實現它。評估標準的革新,正是明確 AI 努力方向的前提。

總而言之,AI 的下半場已經開啟,一個以評測驅動進步的新時代撲面而來。General-Level 和 General-Bench 作為“通才智能”的里程碑,為這一時代寫下了精彩的序章。讓我們期待,在這套評測指引下,更多 AI 模型百尺竿頭、更進一步,早日攀上“王者段位”。屆時,通往 AGI 的大門也將隨之洞開,人類與通用人工智能共創未來的愿景或將成為現實。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-03-21 10:57:58

技術開源數據

2018-11-22 09:07:45

NFV網絡功能虛擬化網絡

2020-12-30 14:25:08

人工智能云異構

2018-10-29 13:50:40

2016-12-21 16:53:51

大數據互聯網阿里

2022-08-09 08:40:51

運營商互聯網云云計算

2020-07-13 07:00:03

微服務服務網格架構

2016-12-13 12:34:23

寬帶電信移動

2021-03-04 09:37:40

云計算云原生計算云安全

2024-09-23 08:42:11

2018-04-25 09:37:41

AI

2018-12-06 09:55:38

區塊鏈數字貨幣互聯網

2021-01-27 09:12:30

微信搜索騰訊

2018-08-12 11:54:41

BlackHat

2018-09-13 11:37:55

微信小程序騰訊

2017-12-13 16:50:14

傳播

2017-08-03 19:02:30

直播CDN金山云

2021-01-30 10:43:43

混合云云計算云服務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线第一页 | 91国在线 | 久久久久久国产精品免费免费狐狸 | 中文字幕av在线播放 | 久久激情网 | 一区二区三区视频在线观看 | 精品国产一区二区三区性色av | 国产在线一区二区三区 | 亚洲综合资源 | 婷婷一级片 | 亚洲免费网址 | 国产成人精品久久二区二区91 | 你懂的免费在线 | 国产精品欧美一区二区 | 美女黄18岁以下禁止观看 | 国产精品日韩高清伦字幕搜索 | 一级中国毛片 | 欧美精品一区二区三区四区 在线 | 又黑又粗又长的欧美一区 | a国产一区二区免费入口 | 伊人精品一区二区三区 | 国产精品国产馆在线真实露脸 | 91视视频在线观看入口直接观看 | 国产高清精品一区二区三区 | 日韩精品网站 | 国产精品揄拍一区二区久久国内亚洲精 | 久久久久久久久91 | 免费一区二区三区 | 国产真实乱对白精彩久久小说 | 久草视频网站 | 亚洲国产欧美在线 | 精品久久久久久久久久久久久久 | 在线看片国产 | 国产激情一区二区三区 | 一区在线观看 | 国产欧美在线播放 | 色婷婷一区二区三区四区 | 紧缚调教一区二区三区视频 | 国产精品久久 | 欧美一区二区三区视频 | 欧洲一区二区三区 |