成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福2025 AI指數出爐!中美AI對決差距僅剩0.3%,DeepSeek領銜

人工智能
2025年斯坦福HAI報告重磅發布,456頁深度剖析全球AI領域的最新趨勢:中美頂級模型性能差距縮至0.3%,以DeepSeek為代表的模型強勢崛起,逼近閉源巨頭;推理成本暴降,小模型性能飆升,AI正變得更高效、更普惠。

就在剛剛,每年都備受矚目的斯坦福AI指數報告,重磅發布了!

這份報告由斯坦福大學以人為本AI研究員發布,代表著每年AI領域最核心和前沿的動向總結。

今年,這份報告長達456頁,拋出不少驚人觀點。

圖片圖片

比如,如今在2025年,中美頂級AI模型的性能差距已經縮小到了0.3%(2023年,這一數字還是20%),中國模型正在快速追趕美國的領先地位!

而DeepSeek領銜的開放權重模型,更是以1.7%之差,逼宮各大閉源巨頭。前者和后者的差距,已經由2024年的8%,縮小至2025年的1.7%。

當然,目前從行業主導企業來看,美國仍然領先于中國。在2024年,90%的知名AI模型來自企業,美國以40個模型領先,中國有15個。

更明顯的一個趨勢,就是如今大模型的性能已經趨同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它們的差距已經越來越小,銳減至5%。

圖片圖片

十二大亮點

最新的斯坦福HAI兩篇博文中,濃縮了2025年AI指數報告的十二大亮點。

1. AI性能再攀高峰,從基準測試到視頻生成全面突破

2023年,研究人員推出了MMMU、GPQA和SWE-bench等新基準來測試先進AI系統的極限。

僅一年后,性能便大幅提升:AI在三項基準得分分別飆升18.8%、48.9%和67.3%。

不僅如此,AI在生成高質量視頻方面取得重大突破,甚至,在某些場景下AI智能體甚至超越人類表現。

圖片圖片

· 更有用智能體崛起 

2024年發布的RE-Bench基準測試,為評估AI智能體復雜任務能力設立了嚴苛標準。

數據顯示:在短期任務(2小時內)場景下,頂級AI系統的表現可達人類專家的4倍;但當任務時限延長至32小時,人類則以2:1的優勢反超。

值得注意的是,AI已在特定領域,如編寫特定類型代碼,展現出與人類相當的專業水平,且執行效率更勝一籌。

圖片圖片

2. 美國領跑頂尖模型研發,但中國與之差距逐漸縮小

2024年,美國產出40個重要AI模型,遠超中國的15個和歐洲的3個。

然而,中國模型在性能上的差距正加速縮小:MMLU等基準測試中,中美AI差異從兩位數縮小至近乎持平。

同時,中國在AI學術論文和專利申請量上持續領跑,中東、拉美和東南亞地區也涌現出具有競爭力的模型。

圖片圖片

3. AI正變得高效且普惠,推理成本暴降280倍

隨著小模型性能提升,達到GPT-3.5水平的推理成本在兩年間下降280倍,硬件成本以每年30%的速度遞減,能效年提升率達40%。

更令人振奮的是,開源模型性能突飛猛進,部分基準測試中與閉源模型的差距從8%縮至1.7%。

· 大模型使用成本持續走低,年降幅最高900倍

在MMLU基準測試中達到GPT-3.5水平(MMLU準確率64.8%)的AI模型調用成本,已從2022年11月的20美元/每百萬token,驟降至2024年10月的0.07美元/每百萬token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18個月內AI成本下降280倍。

視具體任務需求,LLM推理服務價格的年降幅可達9-900倍不等。

圖片圖片

· 小模型性能顯著提升,參數暴減142倍

2022年,在大規模多任務語言理解(MMLU)基準測試中,得分超60%的最小模型是 PaLM,參數量為5400億。

到了2024年,微軟Phi-3-mini僅用38億參數,就取得了同樣的實力。

這代表,兩年多的時間里模型參數減少了142倍。

圖片圖片

4. 科技巨頭稱霸AI前沿,但競爭白熱化

2024年,近90%的重要模型源自企業,學術界則保持基礎研究優勢。

模型規模呈指數增長:訓練算力每5個月翻番,數據集每8個月擴容一倍。

值得注意的是,頭部模型性能差距顯著縮小,榜首與第十名得分差已從11.9%降至5.4%。

圖片圖片

5. AI邏輯短板,推理能力仍是瓶頸

采用符號推理方法的AI系統,能較好解決IMO問題(雖未達人類頂尖水平),但LLM在MMMU等復雜推理任務中表現欠佳,尤其不擅長算術推導和規劃類強邏輯性任務。

這一局限影響了其在醫療診斷等高風險場景的應用可靠性。

圖片圖片

6. 大廠ALL in AI,投資與采用率創雙紀錄

科技大廠們,正全力押注AI。

2024年,美國私營AI投資達1091億美元,約為中國(93億)的12倍、英國(45億)的24倍。

生成式AI勢頭尤猛,全球私募投資達339億美元(同比增18.7%)。

與此同時,企業AI采用率從55%升至78%。研究證實,AI不僅能提升生產力,多數情況下還可縮小勞動力技能差距。

更引人注目的是,將生成式AI應用于至少一項業務職能的企業數量激增——從2023年的33%躍升至去年的71%,增幅超一倍。

圖片圖片

7. AI榮膺科學界最高榮譽,摘諾獎桂冠

2024年,兩項諾貝爾獎分別授予深度學習理論基礎(物理學)和蛋白質折疊預測(化學)研究,圖靈獎則花落強化學習領域。

圖片圖片

8. AI教育普及加速,但資源差距仍存

全球2/3國家已或計劃開展K-12計算機科學教育,但非洲地區受限于電力等基礎設施,推進緩慢。

美國81%的計算機教師認為AI應納入基礎課程,但僅47%具備相應教學能力。

9. AI正深度融入日常生活

從醫療到交通,AI正快速從實驗室走向現實。

1995年,FDA批準了第一款AI賦能的醫療器械。

截至2024年8月,FDA已批準950款AI醫療設備——較2015年的6款和2023年的221款,增長迅猛。

而在自動駕駛領域,汽車已脫離實驗階段:美國頭部運營商Waymo每周提供超15萬次無人駕駛服務。

圖片圖片

10. 全球AI樂觀情緒上升,但地區差異顯著

中國(83%)、印尼(80%)和泰國(77%)民眾對AI持積極態度,而加拿大(40%)、美國(39%)等發達國家則相對保守。

值得關注的是,德國(+10%)、法國(+10%)等原懷疑論國家態度明顯轉變。

圖片圖片

圖片圖片

11. 負責任AI生態發展不均

雖然AI安全事件激增,但主流模型開發商仍缺乏標準化評估體系。

HELM Safety、AIR-Bench和FACTS等新基準為事實性與安全性評估提供工具。

企業普遍存在「認知與行動脫節」,而各國政府加速協作:2024年,經合組織、歐盟等國際機構相繼發布聚焦透明度、可信度的治理框架。

圖片圖片

· 問題AI數量躍升

根據權威AI危害追蹤數據庫「AI事件庫」(AI Incidents Database)統計,2024年全球AI相關危害事件激增至233起,創下歷史新高,較2023年暴漲56.4%。

其中既包括深度偽造私密圖像案件,也涉及聊天機器人疑似導致青少年自殺等惡性事件。

盡管該統計未能涵蓋全部案例,但已清晰揭示AI技術濫用正在呈現驚人增長態勢。

圖片圖片

12. 全球監管力度持續加強

2024年美國聯邦機構頒布59項AI法規,涉及部門數量翻倍。

75個國家立法機構提及AI頻次同比增長21.3%,較2016年增長九倍。

投資方面:加拿大承諾24億美元,中國設立475億美元半導體基金,法國投入1090億歐元,印度撥款12.5億美元,沙特啟動千億美元級的「超越計劃」。

圖片圖片

詳細亮點解讀

下面,我們將摘出報告中的亮點內容,提供更詳細的解讀。

 中美差距僅剩0.3%

翻開502頁的報告,最吸睛的部分,莫過于中美AI差異這部分了。

圖片圖片

圖片圖片

報告中強調,雖然2024年,美國在頂尖AI模型的研發上依然領先,但中美模型之間的性能差距,正在迅速縮小!

為了衡量AI領域過去一年演變的全球格局,HAI特意用AI指數,列出了具有代表性的模型所屬國家,美國依然居首。

數據顯示,在2024年,美國機構以擁有40個知名模型領先,遠遠超過中國的15個和歐洲的3個。

圖片圖片

總體來說,模型發布總量已經下降,可能是多個因素共同導致的,比如訓練規模日益龐大、AI技術日益復雜,開發新模型方法的難度也在增加。

AI模型已成為算力巨獸

圖片圖片

· 參數趨勢

簡單的說,參數就是AI模型通過訓練學到的一些數字,這些數字決定了模型如何理解輸入和怎樣輸出。

AI的參數越多需要的訓練數據也越多,但同時性能也更厲害。

從2010年代初開始,模型的參數量就蹭蹭往上漲,這背后是因為模型設計得越來越復雜、數據更容易獲取、硬件算力也更強了。

更重要的是,大模型確實效果好。

下圖用了對數刻度,方便大家看清楚AI模型參數和算力近年來的爆炸式增長。

圖片圖片

隨著模型參數數量的增加,訓練所需的數據量也在暴漲。

2017年發布的Transformer模型,掀起了大型語言模型的熱潮,當時它用了大約20億個token來訓練。

到了2020年,GPT-3 175B模型的訓練數據已經飆到了約3740億個token。

而Meta在2024年夏天發布的模型Llama 3.3,更是用了大約15萬億個token來訓練。

根據Epoch AI的數據,大型語言模型的訓練數據集規模大約每八個月翻一倍。

圖片圖片

訓練數據集越來越大,導致的訓練時間也變得越來越長。

像Llama 3.1-405B這樣的模型,訓練大概需要90天,這在如今已經算是「正常」的了。

谷歌在2023年底發布的Gemini 1.0 Ultra,訓練時間大約是100天。

相比之下,2012年的AlexNet就顯得快多了,訓練只花了五六天,而且AlexNet當時用的硬件還遠沒有現在的先進。

圖片圖片

· 算力趨勢

「算力」指的是訓練和運行AI模型所需的計算資源。

最近,知名AI模型的算力消耗呈指數級增長。據Epoch AI估計,知名AI模型的訓練算力大約每五個月翻一番。

這種趨勢在過去五年尤為明顯。

圖片圖片

去年12月,DeepSeek V3一經推出就引發了廣泛關注,主要就是因為它在性能上極其出色,但用的計算資源卻比許多頂尖大型語言模型少得多。

下圖1.3.17比較了中國和美國知名AI模型的訓練算力,揭示了一個重要趨勢:美國的頂級AI模型通常比中國模型需要多得多的計算資源。

圖片圖片

· 推理成本

推理成本,指的是對一個已訓練模型進行查詢所需的費用,通常以「每百萬tokens的美元價格」來衡量。

這份報告中AI token的價格數據,來源于Artificial Analysis和Epoch AI的API定價專有數據庫,而價格是根據輸入與輸出token的價格按3:1的權重平均計算得出的。

可以看出,單位性能的AI成本正在顯著下降。

而Epoch AI估計,根據不同任務類型,大型語言模型的推理成本每年下降幅度可達9倍至900倍不等。

雖然如此,想要獲得來自OpenAI、Meta和Anthropic的模型,仍需支付不小的溢價。

圖片圖片

· 訓練成本

雖然很少有AI公司披露具體的訓練成本,但這個數字普遍已達到數百位美元。

OpenAI CEO奧特曼曾表示,訓練GPT-4的訓練成本超過了1億美元。

Anthropic的CEO Dario Amodei指出,目前正在訓練的模型,成本約為10億美元。

DeepSeek-V3的600萬美元,則打破了新低。

圖片圖片

圖1.3.24展示了基于云計算租賃價格的部分AI模型的訓練成本估算。

圖片圖片

圖1.3.25展示了AI指數所估算的所有AI模型的訓練成本。

圖片圖片

在2024年,Epoch能估算的少數模型之一,就是Llama 3.1-405B,訓練成本約為1.7億美元。

另外,AI模型的訓練成本與其計算需求之間存在直接的關聯。如圖1.3.26所示,計算需求更大的模型訓練成本顯著更高。

圖片圖片

參考資料:YZNH

https://www.nature.com/articles/d41586-025-01033-y

https://hai.stanford.edu/ai-index/2025-ai-index-report

https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts


責任編輯:武曉燕 來源: 新智元
相關推薦

2019-12-16 14:33:01

AI人工智能斯坦福

2025-04-08 13:16:34

2025-04-09 11:25:36

2023-04-04 13:58:55

人工智能論文

2025-06-03 17:40:30

AIDeepSeekOpenAI

2018-01-23 16:48:47

AI

2025-04-09 10:53:48

2017-11-28 14:18:29

2019-03-24 12:11:47

AI 數據人工智能

2022-03-17 19:03:14

人工智能報告趨勢

2021-03-05 10:57:33

AI 數據人工智能

2021-03-10 14:48:27

人工智能

2022-07-04 09:12:09

AI技術論文

2019-03-27 10:47:05

人工智能法律AI

2025-06-04 08:00:00

2023-04-12 15:45:56

人工智能ChatGPT

2023-08-10 14:01:08

開源虛擬

2023-07-07 17:03:23

AI智能

2022-05-23 10:09:46

AI研究

2022-07-20 16:39:37

AI數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 很很干很很日 | 国产精品99久久久久久动医院 | 亚洲精品久久久一区二区三区 | 国产特级毛片 | 亚洲+变态+欧美+另类+精品 | 日韩精品在线一区 | 亚洲精品av在线 | 黄色在线免费观看视频 | 中文字幕在线中文 | 欧美在线视频网 | 91九色视频 | 日韩国产中文字幕 | 午夜在线观看免费 | 91成人在线视频 | 久久一区二区三区四区 | 97久久久 | 欧美精品一区二区三区在线播放 | 欧美videosex性极品hd | 精品国产乱码久久久久久闺蜜 | 色偷偷噜噜噜亚洲男人 | 一级特黄a大片 | 激情福利视频 | 人人做人人澡人人爽欧美 | 久久一区视频 | 国产精品美女久久久久久免费 | 日韩国产精品一区二区三区 | 欧美v在线| 欧美精品中文字幕久久二区 | 国产大片黄色 | 日韩在线看片 | 欧美激情一区二区 | 在线中文字幕日韩 | 一区二区三区四区视频 | 久久久久久久久久性 | 日韩一及片 | 欧美videosex性极品hd | a级片在线观看 | 国产精品久久免费观看 | 另类一区 | 久久国产区 | 国产精品欧美大片 |