成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界

發布于 2024-6-17 09:15

瀏覽

0收藏

一直以來，對LLM的支持觀點之一，就是模型可以集成海量事實知識，作為通往「世界模擬器」的基礎。

雖然也有不少人提出反對，但沒有真憑實據。

那么，LLM可以作為世界模擬器嗎？

最近，亞利桑那大學、微軟、霍普金斯大學等機構聯合發布了一篇論文，從實證的角度得出了否定的結論。

最新研究已被ACL 2024頂會接收。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

論文地址：??https://arxiv.org/pdf/2406.06485??

研究發現，GPT-4在模擬基于常識任務的狀態變化時，比如燒開水，準確度僅有60%。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

論文認為，盡管GPT-4這樣的模型表現很驚艷，但如果沒有進一步創新，它就不能成為可靠的世界模型。

為了量化LLM的規劃能力，作者提出了一個全新的基準測試——bytesized32-state-prediction，并在上面運行了GPT-4模型。

基準測試的代碼和數據也已經在GitHub上開源，可以幫助未來的研究繼續探查LLM的能力優缺點。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

??https://github.com/cognitiveailab/GPT-simulator??

一向對自回歸語言模型無感的LeCun也轉發了這篇論文。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

他用了非常強硬的語氣表示，「沒有世界模型，就沒有規劃能力」。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

雖然如此，只憑一篇論文又怎么能平息LLM界的重大分歧？支持語言模型的網友很快就在評論區下面反駁LeCun——

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

網友：目前的LLM能達到約60%的準確率（不專門為任務進行訓練），這至少是某種「世界模型」了，而且每一代LLM都在提升。

LeCun：世界模型不會是LLM。

網友：也許吧。但這并不意味著LLM內部不存在某種（不準確的）世界模型。

不過，在Hinton看來，AI已經不再是僅僅依賴于過去，基于統計模型做下一個token的預測，而是展現出更高的「理解」能力。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

然而，大模型想要成為世界終極模擬器，還很遠。

LLM是「世界模擬器」嗎？

模擬世界，對于AI學習和理解世界至關重要。

以往，多數情況下，可用模擬的廣度和深度受到現實的限制。因需要人類專家耗費數周，甚至數月的時間做大量的工作。

而現在，大模型提供了一種替代的方法，即通過預訓練數據集中大量知識，獲得對世界的深刻理解。

但是，它們準備好，直接用作模擬器了嗎？

對此，這項研究的團隊在「文本游戲」這一領域，來檢驗這一問題。

一般來說，在世界建模和模擬的背景下，應用LLM有兩種方式：一是神經符號化方法；二是直接模擬。

論文中，作者們首次對LLM直接模擬虛擬環境的能力，進行了量化分析。

他們利用JSON模式的結構化表示作為腳手架（scaffold），不僅提高了模擬精度，還可以直接探查LLM在不同領域的能力。

結果發現，GPT-4普遍無法捕捉與智能體行為無直接關聯的「狀態轉移」（state transition）。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

甚至還包括，涉及算術、常識，或科學推理的狀態轉移。

在各種不同條件下，對于模擬一些復雜環境變化時，GPT-4的準確率不及59.9%。

同時也表明，LLM還不足以可靠地充當世界模擬器。

那么，研究人員具體如何實現的？

研究方法

在文本環境中，智能體通過自然語言，完成特定的目標。

他們將文本的虛擬環境形式化，建模為一種馬爾可夫決策過程（POMDP），共有7個元組：S, A, T , O, R, C, D。

其中，S表示狀態空間，A表示行動空間，T:S×A→S表示狀態轉移函數，O表示觀測函數，R:S×A→R表示獎勵函數，C表示用自然語言描述目標和動作語義的「上下文信息」，

D:S×A→{0,1}表示二元指示函數，用0或1標記智能體是否完成任務。

其中，上下文C為模型提供了除環境外的額外信息，比如行動規則、物體屬性、打分規則和狀態轉換規則等等。

然后，研究人員還提出了一個預測任務，稱為LLM-as-a-Simulator（LLM-Sim），作為定量評估大模型作為可靠模擬器的能力的一種方法。

LLM-Sim任務被定義為實現一個函數

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

作為世界模擬器，將給定的上下文、狀態和動作（即

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

）映射到后續的狀態、獎勵和游戲完成狀態（即

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

）。

每個狀態轉移用如下的九元組表示：

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

實際上，整個狀態轉換模擬器F，應該考慮兩種類型的狀態轉移：行為驅動和環境驅動的轉移。

對于圖1中的示例，行為驅動的狀態轉移是在執行「打開水槽」動作后，水槽被打開。而環境驅動的轉移是，當水槽打開時，水將填滿槽中的杯子。

此外，LLM的預測模式也分為兩種：預測下一步的完整狀態，或者預測兩個時刻之間的狀態差。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

為了更好地理解LLM對于每種狀態轉移的建模能力，研究人員進一步將模擬器函數F分解為三種類型：

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

評估結果

建模了LLM的決策過程后，作者也同樣用文本構建了一個虛擬人物場景。

Bytesized32-SP基準測試的數據來源于公開的Bytesized32語料庫，其中有32個人類編寫的文字游戲。

留出一個游戲作為gold label后，測試集總共涉及31個游戲場景，7.6萬多個狀態轉換。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

LLM根據上下文和前一個狀態進行單步預測，給出下一步時的物體屬性、任務進展等信息。

規則方面，研究人員也提出了三種設定：由游戲作者撰寫、由LLM自動生成，或者根本不提供規則。

設定好虛擬環境和任務規則后，作者運行GPT-4進行預測得到了如下結果。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

為了嚴謹起見，作者根據狀態轉移前后預測結果是否變化，分成static和dynamic兩類分開統計。如果前后兩個狀態中，結果并沒有發生變化，LLM也會更容易預測。

不出意料，static一欄的準確率基本都高于dynamic。

對于「靜態」轉移，模型在預測狀態差時表現更好。「動態轉移」則相反，在完整狀態預測中得分更高。

作者猜測，這可能是由于預測狀態差時需要減少潛在的格式錯誤，這會為任務輸出帶來額外的復雜性。

還可以看到，預測動作驅動的狀態轉移的準確率往往高于環境驅動類。在dynamic欄，前者預測最高分有77.1，而后者最高只有49.7。

此外，游戲規則如何制定會很大程度上影響LLM的表現。

如果不提供游戲規則，LLM預測的性能會有明顯的大幅下降，但規則由人類制定或LLM自動生成并不會顯著影響準確率。

相比之下，規則制定對游戲進度預測的影響更加明顯。

相比人類規則，LLM生成規則時，GPT-4的預測有超過10個百分點的提升。難道真的是LLM之間更能相互理解？

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

以上結果都只是針對LLM在不同設定下的性能比較。和人類預測相比，結果如何呢？

為此，4位論文作者親自上陣和GPT-4一較高下。

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

不知道李世石看到這個結果會不會有所安慰。人類的總體準確率在80%左右，遠高于GPT-4在50%附近徘徊的成績，這顯示了規劃能力上的重大差距。

對于規劃任務中的單步預測模型，每一步的模擬誤差都會累積并向后傳播，單步的低性能會很大程度上影響全局表現。

因此LLM較低的準確率說明了，它并不能成為可靠的「文本世界模擬器」。

此外，人類準確率的波動幅度基本不大，說明任務設定比較簡單、直接，適合人類的思維模式。

GPT-4這種較差的性能表現給我們提供了一個寶貴的機會，可以更具體地剖析LLM究竟在哪方面出現了能力缺陷。

因此，論文作者將LLM的預測結果拆開仔細分析，發現在二元布爾值屬性上（is開頭的屬性），模型通?？梢宰龅煤芎谩?/p>

GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠無法模擬世界-AI.x社區

預測表現比較糟糕的，通常是一些非平凡屬性，比如需要算術運算的temprature（溫度）、需要常識的current_aperture（當前照相機光圈），或者需要科學知識的on（燈泡是否打開）。

相比之前的基準測試，這似乎更準確地暴露了LLM在常識和科學推理方面的缺陷。

此外，這也能反映出模型一些行為的「偏執」之處。

在進行完整預測時，它通常過于關注動作驅動的狀態轉移而忽略了環境驅動，出現了很多「未改變值」的錯誤。但是可以在分開預測的結果中看到，這些錯誤是本可以避免的。

作者提出，這篇文章的局限性之一是只使用了GPT模型進行測試，也許其他模型可以有不同的表現。

這項研究的意義更在于基準測試的提出，為探索LLM在「世界模擬器」方面的潛力提供了一套可行的問題形式定義和測試流程。

標簽

贊

收藏

回復

舉報

回復

相關推薦

首個開源世界模型！百萬級上下文，長視頻理解吊打GPT-4，UC伯克利華人一作

duhorse ? 3301瀏覽 ? 0回復
超越GPT-4！最強大模型 Claude 3 完全解讀

開發者阿橙 ? 6451瀏覽 ? 0回復
從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界

duhorse ? 2555瀏覽 ? 0回復
Sora的狂歡、世界模型和AGI

lintoms ? 2695瀏覽 ? 0回復
蘋果推出理解、轉化模型ReALM，性能超GPT-4

Aceryt ? 3008瀏覽 ? 0回復
基于擴散模型的，開源世界模型DIAMOND

Aceryt ? 3123瀏覽 ? 0回復
用GPT-3.5生成數據集！北大天工等團隊圖像編輯新SOTA，可精準模擬物理世界場景

Crystalcxt ? 3133瀏覽 ? 0回復
LLM 評估匯總：真的吊打 LLaMA-3，媲美 GPT-4 嗎？

amei2000go ? 6950瀏覽 ? 0回復
GPT-4系列模型，在文檔理解中的多維度評測

Aceryt ? 2495瀏覽 ? 0回復
PWM: 基于世界模型的策略學習

AIGC最前線 ? 3009瀏覽 ? 0回復
在世界模擬器馴養「賽博老鼠」

duhorse ? 2757瀏覽 ? 0回復
如何通過壓縮提示降低GPT-4的成本

51CTO內容精選 ? 2885瀏覽 ? 0回復
超越GPT-4！LoRA技術引領大型語言模型新革命

AI論文解讀 ? 3309瀏覽 ? 0回復
2024年了，視頻生成模型離通用世界模擬器還有多大差距？SOTA模型全面評估

angel ? 2257瀏覽 ? 0回復
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 2140瀏覽 ? 0回復
人工智能可能永遠無法擁有意識

ceesoft ? 2739瀏覽 ? 0回復
英偉達開源世界大模型，完美模擬物理世界！

Aceryt ? 3356瀏覽 ? 0回復
不用魔法，直接訪問微軟 Copilot GPT-4

丟翅膀的魚 ? 1556瀏覽 ? 0回復
AI的未來：Bill Dally與Yann LeCun談計算驅動與世界模型的突破

chengganfei ? 1841瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek第五天開源猛料，3FS并行文件系統榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AI視頻新霸主誕生！Dream Machine官宣免費用，電影級大片全網玩瘋

下一篇：英偉達開源3400億巨獸，98%合成數據訓出最強開源通用模型！性能對標GPT-4o

社區精華內容

目錄

主站蜘蛛池模板：欧美性猛交一区二区三区精品 | 天天看天天操 | 看亚洲a级一级毛片 | 日韩在线观看视频一区 | 精品久久久久久久久久久久 | 国产精品久久久久久久一区二区 | 国产亚洲一区二区精品 | 久久久久99 | 日韩毛片在线视频 | 日韩看片 | 欧美日韩在线精品 | 日韩中文字幕高清 | 免费一看一级毛片 | 国产女人与拘做视频免费 | 成人九色| 国产精品婷婷 | 久久成人一区 | 精品国产乱码久久久久久牛牛 | 狠狠干美女 | 久久久www成人免费精品 | 欧美视频一区二区三区 | 亚洲视频免费在线看 | 成人在线黄色 | 久久免费视频在线 | 久久久www成人免费精品 | 国产三级大片 | 国产精品精品 | 一区精品在线观看 | 日韩久久久久 | 亚洲激情在线 | 国产欧美在线一区 | 国产黄色在线观看 | 啪啪综合网 | 欧美国产一区二区 | 日日操操 | 亚洲精品成人免费 | 久久99精品久久久久久秒播九色 | 久久看精品 | 国产毛片视频 | 国产精品看片 | 欧美激情精品久久久久久 |

<li id="6uqy0"></li><center id="6uqy0"><li id="6uqy0"></li></center>