成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<blockquote id="66161"></blockquote>

<mark id="66161"><ins id="66161"></ins></mark>

<output id="66161"></output>

<abbr id="66161"></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

世界模型又近了？MIT驚人研究：LLM已模擬現實世界，絕非隨機鸚鵡！

作者：新智元 2024-08-19 08:00:00

人工智能新聞

MIT CSAIL的研究人員發現，LLM的「內心深處」已經發展出了對現實的模擬，模型對語言和世界的理解，絕不僅僅是簡單的「鸚鵡學舌」。也就說，在未來，LLM會比今天更深層地理解語言。

LLM離世界模型，究竟有多遠？

去年，MIT的一篇文章發現了驚人的結論：在LLM內部，存在一個世界模型。

LLM不僅學習了表面的統計數據，還學習了包括空間和時間等基本緯度的世界模型。

Llama-2-70B竟然能夠描繪出研究人員真實世界的文字地圖

不僅如此，MIT最近又發現：在LLM的深處，發展出了一種對現實的模擬，它們對語言的理解，已經遠遠超出了簡單的模仿！

論文地址：https://arxiv.org/abs/2305.11169

具體來說，MIT計算機科學和人工智能實驗室（CSAIL）的兩名學者發現——

盡管只用「預測下一個token」這種看似只包含純粹統計概率的目標，來訓練LLM學習編程語言，模型依舊可以學習到程序中的形式化語義。

這表明，語言模型可能會發展自己對現實的理解，以此作為提高其生成能力的一種方式。

因此，LLM在未來的某一天，可能會比今天更深層次地理解語言。

目前這篇文章已被ICML 2024接收，實驗所用代碼也已經公布在GitHub上。

倉庫地址：https://github.com/charlesjin/emergent-semantics

沒有眼睛，LLM就「看」不到嗎？

如果讓GPT-4去聞一下被雨水浸濕的露營地的味道，它會禮貌地拒絕你。

不過，它仍然會給你一個詩意的描述：有新鮮的泥土香氣，和清爽的雨味，還有松樹或濕樹葉的痕跡。

GPT-4沒見過下雨，也沒有鼻子，但它能模仿大量訓練數據中存在的文本。

缺少一雙眼睛，是不是就意味著語言模型永遠無法理解「獅子比家貓更大」？

LLM能理解現實世界和各種抽象概念嗎？還是僅僅在「鸚鵡學舌」，純粹依靠統計概率預測下一個token?

LLM的工作原理，依舊是未解之謎。AI圈的大佬們，時不時就要因為這個問題展開一場論戰。

LeCun堅定認為，LLM的智能絕對被高估了！他最著名的論斷，就是那句「大語言模型不如家里養的貓」。

「貓可以記憶，可以理解物理世界，可以計劃復雜的行動，可以進行一定程度的推理，這實際上已經比最大的模型要好了，意味著我們在概念層面有重要的缺失，無法讓機器像動物和人類一樣聰明?！?/span>

沒有感官，不耽誤ChatGPT為你描述各種氣味和圖片；沒有生活經驗，很多用戶依舊「遇事不決，ChatGPT解決」；看起來完全沒有共情能力，Character.ai上的「心理學家」還是能俘獲美國一千萬青少年的心。

很多人將此解釋為純粹的統計現象，LLM只是在「鸚鵡學舌」，對大量訓練語料中存在的文本進行模仿，并不是像人類一樣擁有同等水平的智能或感知。

但現在，MIT的研究證明，并非如此！

LLM內部，絕對存在著對現實世界的理解。

LLM破解卡雷爾謎題，意味著什么

為了探究這個謎團，MIT CSAIL的研究者們，開發了一套小型卡雷爾謎題（Karel Puzzle）。

簡單介紹下，什么是卡雷爾謎題

其中包括讓模型用指令在模擬環境中控制機器人的行動。

卡雷爾語法規范

然后他們在訓練LLM學習一種特定的解決方案，但沒有演示其中的工作原理。

最后，作者提出了一種名為「探針」（probing）的機器學習技術，用于在模型生成新解決方案時，深入了解其中的「思維過程」。

研究者通過對隨機參考程序進行采樣來構建訓練示例，然后對5個隨機輸入進行采樣并執行程序，以獲得相應的5個輸出。LM由交錯輸入和輸出組成的示例語料庫上進行下一個token預測訓練，然后是參考程序。在測試時，研究者向LM提供看不見的輸入輸出規范，并使用貪婪解碼來預測程序

在超過100萬個隨機謎題上進行訓練后，研究人員發現，模型自發地形成了對底層模擬環境的概念！盡管訓練期間，它們并沒有接觸過這方面的信息。

這個結果，不僅挑戰了我們對LLM的固有印象，也質疑了我們對思維過程本質的認知——

在學習語義的過程中，究竟哪些類型的信息才是必需的？

實驗剛開始時，模型生成的隨機指令幾乎無法運行；但完成訓練時，指令的正確率達到了92.4%。

論文一作Jin表示，「這是一個非常激動人心的時刻，因為我們認為，如果語言模型能以這種準確度完成任務，我們也會期望，它能理解語言的含義?！?/span>

「這給了我們一個起點，來探索LLM是否確實能理解文本，現在我們看到，模型的能力，遠不止于盲目地將單詞拼接在一起?！?/span>

打開LLM的大腦

在這項實驗中，Jin親眼目睹了這一進展。

LLM為什么會認為，這些指令指的是這個意思？

他發現，LLM已經開發了自己的內部模擬，來模擬機器人如何響應每條指令而移動。

而隨著模型解決難題的能力越來越高，這些概念也就變得越來越準確，這就表明：LM開始理解指令了。

不久之后，LLM就能始終如一地將各部分正確地拼接在一起，形成工作指令。

通過不同的探針分類器測量的語義內容（綠色）

思維探針

而為上述發現做出主要貢獻的，就是一種「思維探針」。

這是一種介入LLM思維過程的有效工具，論文將它稱為「probing」。

具體而言，LM的狀態中包含輸入和生成程序的純語法層面的記錄，但probe似乎可以學習理解其中的抽象解釋。

實際的實驗中，作者首先構建LLM的狀態跟蹤數據集，再用標準的監督學習方法訓練一個小型模型作為探針，比如線性分類器或2層MLP。

訓練后半段當前和接下來兩個抽象狀態的語義內容（1層MLP）

然而，其中一個重要的問題在于，必須將probe和模型實際的思考過程或生成的指令進行分離。

雖然探針的唯一目的，只是「進入LLM的大腦」，但如果它也為模型做了一些思考，該怎么辦呢？

研究者需要確保的是，LLM能夠獨立于探針理解指令，而不是由探針根據LLM對語法的掌握來推斷機器人的動作。

想象一下，有一堆編碼LLM思維過程的數據，其中probe的角色就像一名取證分析師。

我們把這堆數據交給了分析師，告訴ta：「這是機器人的動作，試著在這堆數據中，找出機器人是怎么動的。」分析師表示，自己知道這堆數據中的機器人是怎么回事。

但是，假如這堆數據只是對原始指令進行了編碼，而分析人員已經想出了一些巧妙的方法來提取指令，并按照指令進行相應的操作呢？

在這種情況下，LLM就根本沒有真正了解到這些指令的含義。

為此，研究者特意做了一個巧妙的設計：它們為模型打造了一個「奇異世界」。

在這個世界中，probe的指令含義被反轉了，比如「向上」其實意味著「向下」。

例如，原始語義中的exec（turnRight,·）是將使機器人順時針旋轉90度，而exec adversarial（turnRight,·）是將機器人推進一個空間

這就保證了，probe并不是在「投機取巧」，直接學習理解LLM對指令的編碼方式。

一作Jin這樣介紹道——

如果探針是將指令翻譯成機器人的位置，那么它應該同樣能夠根據離奇的含義翻譯指令。

但如果探頭實際上是在語言模型的思維過程中，尋找原始機器人動作的編碼，那么它應該很難從原始思維過程中提取出怪誕的機器人動作。

結果發現，探針出現了翻譯錯誤，無法解釋具有不同指令含義的語言模型。

這就意味著，原始語義被嵌入了語言模型中，表明LLM能夠獨立于原始探測分類器，理解所需的指令。

上半部分描述了在干預前，兩種情況如何導致測量的高語義內容。下半部分顯示了為什么將兩個假設分開: 如果LM表示僅包含語法（左下），那么應該可以訓練探針alt來學習根據替代狀態prog（粗體紅色結果）解釋記錄；然而，如果LM表示編碼原始抽象狀態（右下），則探測alt需要從原始狀態prog中提取替代狀態'prog，從而產生較低的語義內容（粗體灰色結果）

LLM理解語言，就像孩童一樣

有趣的是，Jin發現，LLM對語言的理解是分階段發展的，就像孩子學習語言時分多個步驟一樣。

開始，它會像嬰兒一樣牙牙學語，說出的話是重復的，而且大多數都難以理解。

然后，LLM會開始獲取語法或語言規則，這樣，它就能夠生成看起來像是真正解決方案的指令了，但此時它們仍然不起作用。

不過，LLM的指令會逐漸進步。

一旦模型獲得了意義，它就會像孩子造句一樣，開始產生正確執行所要求規范的指令。

結果如圖2所示，可以看出LLM對語言的理解大致分為3個階段，就如同孩童學習語言一樣。

牙牙學語（babbling，灰色部分）：占據整個訓練過程約50%，生成高度重復的程序，準確率穩定在10%左右
語法習得（syntax acquisition，橙色部分）：訓練過程的50%～75%，生成結果的多樣性急劇增加，句法屬性發生顯著變化，模型開始對程序的token進行建模，但生成的準確率的提升并不明顯
語義習得（semantics acquisition，黃色部分）：訓練過程的75%到結束，多樣性幾乎不變，但生成準確率大幅增長，表明出現了語義理解

實驗使用了三種不同的probe架構作為對比，分別是線性分類器、單層MLP和2層MLP。

提前2步預測時，2層MLP預測準確率的絕對值高于用當前狀態預測的基線模型。或許可以得出這樣一種推測：LLM在生成指令前，其思維過程，以及生成指令的「意圖」已經存儲在模型內部了。

LLM = 世界模型？

這項研究解釋了LLM如何思考訓練數據中每條指令的含義，如何在內部狀態中模擬機器人對指令的響應。

這些都直指當前AI研究的一個核心問題——LLM令人驚訝的能力，僅僅是由于大規模的統計相關性，還是對它們現實產生了有意義的理解？

研究表明，LLM開發了一個模擬現實的內部模型，盡管它從未接受過開發該模型的訓練。

而且，語言模型還可以進一步加深對語言的理解。

然而，僅靠一篇論文顯然不能完全回答這個問題。

作者Jin也承認，這項研究存在一些局限性：他們僅使用了非常簡單的編程語言Karel，以及非常簡單的probe模型架構。

未來的工作將關注更通用的實驗設置，也會充分利用對于LLM「思維過程」的見解來改進訓練方式。

本文另一位作者Rinard表示，「一個有趣的懸而未決的問題是，在解決機器人導航問題時，LLM是在用內部現實模型來推理現實嗎？」

雖然論文展現的結果可以支持這一結論，但實驗并不是為回答這個問題而設計的。

布朗大學計算機科學和語言學系助理教授Ellie Pavlick高度贊揚了這項研究。

她表示，對LLM工作原理的理解，可以讓我們對這項技術的內在可能性和局限性有更合理的期望。這項研究正是在受控環境中探索這個問題。

計算機代碼像自然語言一樣，既有語法又有語義；但與自然語言不同的是，代碼的語義更直觀，并可以根據實驗需要直接控制。

「實驗設計很優雅，他們的發現也很樂觀，這表明也許LLM可以更深入地了解語言的『含義』?！?/span>

作者介紹

本文一作Charles Jin是MIT EECS系和CSAIL實驗室的在讀博士，導師Martin Rinard是本文的另一位作者，他的研究主要關注穩健的機器學習和程序合成。

Jin本科和碩士畢業于耶魯大學，獲得了計算機科學和數學雙學位，曾經在Weiss資產管理公司擔任分析師，博士期間曾在Google Brain擔任研究實習生。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：神马福利 | 天天干天天玩天天操 | 91在线精品视频 | 天天看天天摸天天操 | 日韩一区二区三区在线 | 成人精品视频在线 | 国产精品视频播放 | 精品免费国产一区二区三区四区介绍 | 色黄视频在线 | 国产综合久久 | www国产亚洲精品 | 91视频正在播放 | 日本一区二区在线视频 | 一区二区中文字幕 | a免费在线| 国产精品区二区三区日本 | av在线伊人 | 久草成人网 | h片在线观看网站 | 亚洲精品欧美 | 中文字幕一区二区三区在线观看 | 91成人午夜性a一级毛片 | 欧美在线一区二区三区 | 人人爽人人草 | 一级欧美一级日韩片 | 日本一二区视频 | 日本成年免费网站 | 久久一区二区三区四区 | 亚洲国产成人精品一区二区 | 丁香婷婷综合激情五月色 | 黄色片亚洲 | 欧美日韩国产一区二区三区 | 国产精品国产精品国产专区不蜜 | 日韩中文字幕在线视频观看 | 99热在线播放 | 中文字幕一区二区三区不卡 | 国产在线一区二区 | 国产精品一区二区视频 | av片免费| 蜜桃视频在线观看免费视频网站www | 亚洲欧美日韩在线 |

<noscript id="16111"></noscript>

<blockquote id="16111"></blockquote>

<rp id="16111"></rp>

<span id="16111"></span>

<blockquote id="16111"></blockquote>