OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？

發(fā)布于 2025-4-21 00:48

瀏覽

0收藏

OpenAI大佬姚順雨發(fā)表一篇名為“The Second Half”博客，核心觀點是人工智能（AI）的發(fā)展已經(jīng)進入了一個新的階段，即“下半場”：

從現(xiàn)在開始，將把重點從解決問題轉(zhuǎn)移到定義問題上；
評估將比訓(xùn)練更為重要，不再只是問：“我們能否訓(xùn)練一個模型來解決X問題？”而是要問：“我們應(yīng)該訓(xùn)練人工智能去做什么，以及我們?nèi)绾魏饬空嬲倪M步？”；
為了在AI的下半場取得成功，需要及時轉(zhuǎn)變思維方式和技能組合，這些思維方式和技能組合或許更接近產(chǎn)品經(jīng)理的思維和技能。

OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？-AI.x社區(qū)

重點：在過去的幾十年中，AI的研究主要集中在開發(fā)新的訓(xùn)練方法和模型，如深度學(xué)習(xí)、強化學(xué)習(xí)（RL）等。這些方法取得了顯著的成果，例如DeepBlue、AlphaGo、GPT-4等。
成果：這些模型在各種任務(wù)上表現(xiàn)出色，包括棋類游戲、語言模型、數(shù)學(xué)競賽等，推動了AI的快速發(fā)展。
評價方式：AI的評價主要依賴于基準(zhǔn)測試（benchmarks），例如ImageNet、WMT’14等。這些基準(zhǔn)測試為模型的性能提供了量化指標(biāo)，但往往被視為次要角色。

關(guān)鍵轉(zhuǎn)折點：強化學(xué)習(xí)（RL）在過去一直未能很好地泛化，但最近取得了重大突破。通過語言和推理，RL現(xiàn)在可以解決一系列廣泛的任務(wù)，如軟件工程、創(chuàng)意寫作、數(shù)學(xué)競賽等。
在強化學(xué)習(xí)（RL）中，有三個關(guān)鍵組成部分：算法、環(huán)境和先驗知識
事實證明，強化學(xué)習(xí)中最重要的部分可能根本不是強化學(xué)習(xí)算法或環(huán)境，而是先驗知識，而這些先驗知識可以通過與強化學(xué)習(xí)完全無關(guān)的方式獲得。

OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？-AI.x社區(qū)

新的焦點：AI的下半場將從“解決問題”轉(zhuǎn)向“定義問題”。這意味著評價將比訓(xùn)練更重要，研究者需要思考“我們應(yīng)該訓(xùn)練AI做什么，以及如何衡量真正的進步”。
評價的重要性：過去，AI的研究側(cè)重于開發(fā)新的模型和方法，以在基準(zhǔn)測試中取得更好的成績。但在下半場，研究者需要重新思考評價機制，創(chuàng)造新的任務(wù)和評價標(biāo)準(zhǔn)，以推動AI在現(xiàn)實世界中的應(yīng)用。
現(xiàn)實世界的應(yīng)用：盡管AI在各種基準(zhǔn)測試中取得了巨大成功，但這些成功尚未對經(jīng)濟和GDP產(chǎn)生顯著影響。這是因為現(xiàn)有的評價機制與現(xiàn)實世界的實際應(yīng)用存在差異。例如，現(xiàn)實中的任務(wù)往往需要與人類互動，而不是完全自動化的。

OpenAI大佬：AI上半場忙著開發(fā)新訓(xùn)練方法和模型GPT-4/o1/o3，下半場呢？-AI.x社區(qū)

互動性：現(xiàn)實世界中的任務(wù)往往需要與人類互動，而不是完全自動化的。新的評價機制需要考慮這種互動性，例如通過引入真實的人類用戶（如Chatbot Arena）或用戶模擬（如tau-bench）。
非獨立同分布（non-i.i.d.）：現(xiàn)實世界中的任務(wù)往往是順序解決的，而不是獨立同分布的。新的評價機制需要考慮這種順序性，例如通過引入長期記憶方法。

標(biāo)簽

贊

回復(fù)