成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI自曝:AI推理砸錢越多,碾壓人類越狠!

人工智能 新聞
你以為GPT-4已經夠強了?那只是AI的「預熱階段」。真正的革命,才剛剛開始——推理模型的時代,來了。這場范式革命,正深刻影響企業命運和個人前途。這不是一場模型參數的升級,而是一次認知邏輯的徹底重寫。

AI推理模型改變了一切。

而OpenAI早有討論。

最近,他們放出了過去關于推理模型重寫未來的討論。

圖片

OpenAI研究員Noam Brown強調了預訓練和推理兩種關鍵的AI范式,以及模型隨著處理更多數據和計算能力的提升而不斷改進的過程。

這些技術進步不僅加速了模型性能的提升,還在重塑人工智能基礎設施的戰略和經濟動態。

與此同時,由OpenAI首席經濟學家Ronnie Chatterji等討論探討了人工智能與國家安全和經濟政策的交叉領域。

這些討論共同強調了人工智能的雙重軌跡:一方面加速技術進步,另一方面加深其在全球政策、基礎設施和制度治理中的角色。

AI時代,前所未有

第一個出場的是Noam Brown。

他是OpenAI在多智能體推理領域的研究人員,以共同開發出首個超越人類水平的無限注德州撲克AI,以及首個達到人類水平的策略游戲《外交官》(Diplomacy)AI而聞名。

圖片

多年來AI已經取得了很多很酷、令人印象深刻的成果。

比如說,在1997年,IBM的「深藍」戰勝了國際象棋冠軍Garry Kasparov。

圖片

在2011年在《危險邊緣》節目中,IBM的「沃森」奪冠。

圖片

在某些特定領域,AI也早就有了不少令人驚艷的成果。

比如,很早以前,美國郵政就開始用光學字符識別技術來分揀郵件;Facebook的人臉識別功能,也已經存在很多年了。

圖片

那么問題來了,像ChatGPT這樣的AI,以及現在所處的AI時代,到底特別在哪里?

答案其實就在于「通用性」。

最重要的區別在于:以前的AI系統都非常專注于單一任務。

比如在1997年,IBM的「深藍」戰勝Garry Kasparov,但背后可是花了兩年甚至更久的時間,專門訓練AI只為了下好國際象棋。

圖片

深藍機組之一

同樣的情況也發生在《危險邊緣》節目上,他們花了好幾年時間,只為了讓AI在節目中表現出色——

但它只會做這一件事,其他什么都不會。

而現在ChatGPT和如今的AI特別之處就在于它們的「通用性」——

也就是說,它們可以完成很多完全不同的任務,哪怕這些任務并不是特意訓練過的。

這就是我們所處AI新時代真正不同的地方。

圖片

Noam Brown接下來強調了兩種關鍵的AI范式:預訓練范式和推理范式。

圖片

預訓練范式

「預訓練范式」出現得更早,也是最初驅動ChatGPT的核心方式。

最早,這可以追溯到2019年的GPT-2。

它的基本思路其實很簡單:

收集大量文本,包含了互聯網的大部分內容;

然后訓練AI模型來預測一句話中下一個可能出現的詞。

聽起來也許很基礎,但這種方法卻能帶來令人驚訝的智能水平。

為什么會這樣呢?

Brown認為原因在于,當把整個互聯網的大量文本輸入給模型,里面自然就包含多種多樣的內容。

那么當模型要預測某個語句中的下一個詞時,它必須理解很多上下文信息,才能做出最準確的判斷。

圖片

Ilya Sutskever有個特別形象的說法:

想象一下網絡上有一本推理小說,模型已經讀完了整本小說的所有文字,來到結尾的部分。

故事最后,偵探說:「我知道兇手是誰了。兇手就是____。」

這個時候,如果模型要預測這句話中最后那個空白部分,它就必須真正「理解」整部小說的情節。

這就是為什么僅僅通過「預測下一個詞」的訓練方式,模型就能學到這么多看似復雜的知識。

這就是預訓練范式的魅力所在。

而且另一個很關鍵的點在于,它具備很強的通用性——

因為它是基于整個互聯網的海量文本進行訓練的,所以自然能學到各種各樣的知識和語言表達方式。

OpenAI原始信仰:Scaling Law

更令人印象深刻的是,大家已經持續觀察到一個很穩定的趨勢:當在預訓練范式中投入更多的數據、更多的計算資源、以及更大的模型規模,模型在「預測下一個詞」這項任務上的表現就會變得越來越好。

AI領域有2篇非常著名的論文。

圖片

圖片

這些研究表明:當擴大模型規模、延長訓練時間、增加訓練數據量之后,模型在完成預測任務時會提升。

圖片

這種穩定可控的增長趨勢,正是促使OpenAI決定大規模投入資源、繼續擴展模型規模的核心依據。

當然,光是讓模型更會「預測下一個詞」,并不一定就意味著它在用戶真正關心的任務上,比如編程,真的變得更強了。

但在實踐中發現:當模型在預測任務上表現越來越好時,它在各種「下游任務」上的表現也會隨之變好,比如寫代碼、做數學題、回答問題等等。

圖片

這其實就是GPT范式不斷演進的基礎,從GPT-1到GPT-2,一直到現在,模型能力的持續提升。

但正是這種「簡單粗暴」的擴大規模方式,帶來了性能的巨大飛躍——

這就是令人驚喜的地方。

當GPT-3發布、而且提升的趨勢依然繼續延伸時,AI領域里很多人都開始認為:

好吧,這就是終點了。我們已經找到了通往超級智能的道路。我們只需要不斷擴大模型規模,就能獲得越來越強的智能。

從理論上講,這是對的。

但關鍵問題在于——這條路的成本非常高昂,而且會迅速飆升。

比如GPT-2的訓練成本,大概在5,000到50,000美元之間,取決于具體怎么估算。而根據一些公開資料,GPT-4的訓練成本可能高達5,000萬美元左右。

如果還要繼續按照這個方向再擴大幾個數量級,那花費將是天文數字。

而且盡管模型確實變得更聰明了,但它離理想中的「通用智能」仍然還有一段路要走。

圖片

這也呼應了Ronnie曾經說過的一點:這個領域發展得非常快。

過去一年里聽到的一些關于大語言模型(LLM)和「擴展范式」的批評,可能在當時確實是有道理的。

但到了2023年9月,情況發生了變化——

因為人類已經進入了「推理模型」時代。

這就引出了「擴展能力」的第二種范式:推理范式(reasoning paradigm)。

推理范式

預訓練的成本已經快速增長,動輒就是上千萬美元,有些訓練甚至花費了上億美元。

雖然理論上還可以繼續往上堆錢,比如投入十億、甚至數十億美元,但到某個點之后,經濟回報就不再劃算了。

不過,有一點非常關鍵:雖然訓練的成本越來越高,但實際向模型提問,讓它給你一個答案的花費的「推理成本」,其實仍然很低。

這就為「擴展」開辟了一個新的維度。

設想一下,如果大家不再單純依賴擴大訓練量,而是提升模型在「每次回答前進行更深層思考」的能力呢?

這正是o系列模型(比如o1)背后的核心思想。

舉個例子:你向GPT-4提一個問題,它可能只花你一分錢左右。

但如果你問o1同樣的問題,它會「認真思考」很久,也許會花上一分鐘才回答,而成本可能是大約一美元——

具體來說是數量級上的估算,有上下浮動。

但這個一美元的回答,往往會比那一分錢的回答好得多。

這就是推理范式帶來的全新可能。

圖片

右圖展示了推理范式的實際效果。

數學競賽:AIME

美國數學競賽(AIME),是美國數學奧林匹克國家隊的選拔賽之一。

圖片

圖中的縱軸表示準確率,也就是模型在「一次答對」的比例(叫做「pass@1」);橫軸表示模型在回答問題時所消耗的推理計算量(也就是「思考」時間和資源的多少)。

在圖的最左邊,模型幾乎是「秒回」——也就是基本沒怎么思考;而在最右邊,模型會花上幾分鐘去思考后再作答。

可以明顯看出:隨著模型「思考得越久」,答題準確率就越高,表現也就越好。

這說明推理時間確實能帶來質量的提升。

這提供了全新的「擴展維度」——

大家不必再單靠堆大模型、加大訓練成本來提升性能,而是可以通過增加推理時間、花更多資源在「每次思考」上,來獲得更強的結果。

而且最美妙的是,這個維度幾乎還沒有被充分利用。

就像之前說的,GPT-4一次問答成本大約只有一分錢。

但實際上,對于很多人真正關心的問題,他們愿意支付遠不止一分錢。

我們現在可以開始探索新的定價——

每次問答成本可以是幾美元、幾十美元,甚至更多,這樣就可以支撐模型進行更深入、更高質量的推理。

目前來看,在競賽數學方面,這是AIME 2024的測試數據。

GPT-4o得分大約是13%,o1 preview模型得分大約是57%,o1得分達到83%。

再來看博士級別的科學問題,也就是上圖最右的GPQA基準測試。

這是一個多項選擇題測試,設計目標是需要具備領域內博士水平才能作答。

人類平均正確率是70%。GPT-4o得分是56%,這個成績已經很出色了。

而o1得分則是78%。

而且,自自從發布以來,這些成績還在持續提升,而且進步非常迅速:

去年9月,發布o1 preview;

同年12月,發布了正式版的o1,并在同月宣布了還未發布的o3。

這是AI的重點所在。

AI編程:超越人類

關于編程競賽的表現,以專業的編程競賽平臺Codeforces為例。

圖片

GPT-4o的得分只排在第11百分位,也就是說,它的表現只比約11%的頂尖人類程序員好。

o1模型的Elo分數是1891,相當于人類選手的第89百分位。

而o3模型的Elo分數超過了2700,已經進入了人類專業編程選手的前0.1%,相當于全球第175名的水平。

而且,OpenAI有個內部模型,它的水平已排進了全球前50名。

Brown預測:

到今年年底,OpenAI的模型在編程競賽中將會達到超越人類的水平。

而「達到超人類水平」這件事本身并不新鮮,AI過去也做到過很多次。

但o3模型特別的地方在于:它不僅僅在編程競賽中表現優秀,它在很多任務上都表現得非常出色。

而在編碼任務基準測試Swebench Verifie,o3得分達到了72%。

這意味著這個模型即使不是專門為了編程訓練的,也已經具備了強大的實際編碼能力,對現實世界的經濟活動會帶來很大影響。

AI進步太快了:六個月前還存在的問題,但現在已經不成立了。

AI與經濟

Aaron Ronnie Chatterji是OpenAI的多一位首席經濟學家。

目前,他是杜克大學的Mark Burgess & Lisa Benson-Burgess杰出教授,專注于學術、政策與商業交匯的領域。

他曾在拜登政府任職,擔任白宮CHIPS協調員以及國家經濟委員會代理副主任。在此之前,他曾任美國商務部首席經濟學家,以及白宮經濟顧問委員會的高級經濟學家。

圖片

他認為就像當前世界在多個維度上已經出現的分裂趨勢一樣,AI也不例外。

如果輕易接受這樣分裂的世界,可能會帶來兩個風險:

一是OpenAI可能會在一些關鍵市場失去信譽,而這些市場正是它努力爭取信任的地方;

二是OpenAI很可能會失去一些關鍵的人才。

因此,在堅持價值觀的同時,如何在其中找到平衡,是這次討論中的一個重要主題。

OpenAI非常國際化,因此,當不同地區開始采用不同類型的技術、而超級大國之間的技術競爭加劇時,這讓很多人感到不安。

AI的經濟影響與意義

從總體上來看,OpenAI內部討論的結論是:AI正在從根本上重塑企業格局

圖片

但這種轉型并不只是關于取代人類或企業本身的問題,而更像是一場「技術化競賽」。

這種轉型發生在各類企業中——包括《財富》500強、大中小型企業等各個層級。

他們的討論主要從三個維度展開:

第一,AI取代人類。

這里的關鍵問題其實不是{AI會不會取代人類},而是「AI將如何增強或取代人類的角色」。這才是大家真正需要思考的方向。

第二,AI取代公司。

與其說是AI創業公司會取代傳統企業,不如說是一場誰更能有效采納和整合AI的競賽

比如在銀行業,大家就可以看到這種分化趨勢:一些銀行擁有技術人才,正在積極投資AI;而另一些仍依賴傳統主機系統(mainframes),開始借助AI推動現代化轉型。

企業必須作出選擇:要么走在AI轉型的前列,要么就被甩在后面。

第三,從個人或企業的視角出發來看如何落地AI。

誰能真正理解并應用最新的AI技術,誰就能取得成功。AI的影響范圍涵蓋技術支持、運營效率、戰略決策等多個方面。

所以,關鍵的問題是:企業的AI旅程是什么?

你現在處在什么階段?

兩年后你希望達到什么樣的水平?

這正是許多企業在思考的問題。

這趟旅程并不是簡單地購買AI工具、獲取許可證那么簡單,而是要把AI嵌入整個價值鏈中,實現深度融合。

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-07-25 20:08:50

編程技能開發

2021-08-16 20:45:52

AI人工智能

2021-08-16 15:47:02

AI決策人工智能

2025-06-27 08:40:00

模型推理AI

2025-03-13 09:16:25

2025-05-28 11:44:24

AI模型研究

2025-03-11 13:54:11

2024-12-24 12:19:45

2019-10-31 14:37:55

技術人工智能開發

2021-08-12 10:44:05

漏洞網絡安全網絡攻擊

2025-03-05 09:00:00

DeepSeek模型AI

2024-07-05 09:18:45

2025-03-13 10:29:17

模型奧特曼AI

2025-04-17 14:09:52

OpenAI模型編程

2024-07-25 12:35:33

2025-05-26 09:06:00

2024-07-29 07:04:00

大模型AI訓AI人工智能

2024-07-12 12:51:44

2024-11-12 13:07:44

2013-03-01 11:09:29

大數據HadoopNoSQL
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 婷婷丁香在线视频 | 自拍偷拍第一页 | 国产一级片在线观看视频 | 精区3d动漫一品二品精区 | 国产精品一区二区三 | 国产一级一片免费播放 | 亚洲欧美视频一区 | 中文字幕1区 | 免费黄色大片 | 欧美一区不卡 | 免费成人高清 | 国产精品欧美一区喷水 | av大全在线观看 | 久久久久亚洲精品中文字幕 | 久久综合一区 | 免费午夜电影 | 欧洲免费毛片 | 成人免费黄色片 | 欧美日韩在线免费观看 | 一本综合久久 | 一片毛片 | 亚洲天堂av在线 | 成人免费观看男女羞羞视频 | 一区二区三区视频播放 | 老司机久久 | 欧日韩在线 | 亚洲 欧美 日韩在线 | 亚洲一区免费 | 在线播放国产一区二区三区 | 成人日韩av| 日韩av一区二区在线观看 | 中文字幕成人 | 亚洲一区二区久久久 | 日韩中文字幕一区 | 91免费版在线观看 | 国产专区在线 | 久久r久久| 欧美日韩一区二区在线观看 | 草草精品 | 精品欧美一区免费观看α√ | 日韩视频观看 |