Hinton和LeCun再交鋒，激辯LLM能否引發智能奇點！LeCun：人類理解能力碾壓GPT-4

作者：新智元 2023-11-26 17:14:05

人工智能新聞

大模型能否理解自己所說，Hinton和LeCun再次吵起來了。LeCun新論文證明，GPT-4回答問題準確率僅為15%，自回歸模型不及人類。

AI大佬的激戰再次掀起。

Hinton在線直接點名LeCun，說他對AI接管風險的看法對人類的影響微乎其微。

這意味著，他把自己的意見看得很重，而把許多其他同樣有資格的專家的意見看得很輕。

在Hinton看來，他們之間意見分歧的核心論點是「LLM是真正理解自己說什么」。

當然了，一直站在末日派中的Hinton認為大模型有了意識，而LeCun、吳恩達等人卻認為LLM不明白自己所說。

對此，LeCun反駁道，大模型顯然對其閱讀和生成的內容有「一些」理解，但這種理解是非常有限和膚淺的。

總的來說，目前自回歸大模型沒有對推理和規劃能力，遠未及人類水平的智能。

恰在近日，LeCun發表了一篇新論文，再提自回歸LLM做得不好。

論文中，研究人員介紹了一個通用AI助手基準GAIA。

其中提出了需要一系列基本能力的現實世界問題，比如推理、多模態處理、網頁瀏覽和一般的工具使用熟練程度。

論文地址：https://arxiv.org/pdf/2311.12983.pdf

結果表明，GAIA設計的問題對人類來說簡直輕而易舉，而對大多數高級AI來說卻很有挑戰性。

即，人類回答準確率為92%，而用上插件的GPT-4回答準確率僅為15%。

通用人工智能助手基準——GAIA

GAIA的產生，既是因為需要修訂AI基準，也是因為發現了LLM評估的不足之處。

研究人員提出的通用人工智能助手的基準——GAIA，包含了466個精心設計的問題和答案，以及相關的設計方法。

這些問題對AI系統具有挑戰性，大多數需要復雜的代數。

但又能給出唯一的、符合事實的答案，從而實現簡單而穩健的自動評估。

GAIA問題示例

設計選擇

第一個原則：瞄準概念上簡單但對人類來說可能乏味的問題。

這些問題多種多樣的，植根于現實世界，對當前的人工智能系統具有挑戰性。

因此，這些問題的設計將重點放在基本能力上，如通過推理快速適應、多模態理解和潛在的多樣化工具使用，而不是專業技能上。

問題一般包括查找和轉換從不同來源收集到的信息，如提供的文檔或開放且不斷變化的網絡，從而得出準確的答案。

第二個原則：可解釋性。

由于高度精選的問題數量有限，因此與匯總問題相比，該基準更易于使用。

任務的概念簡單性（人類成功率為 92%）使得用戶很容易理解模型的推理軌跡。

第三個原則：對記憶的魯棒性。

為了完成一項任務，GAIA系統必須計劃并成功地完成一些步驟，因為從當前的訓練前數據中，得到的答案是設計成純文本的。

第四個原則：易用性。

研究者的任務是附加文件的簡單提示。至關重要的是，問題的答案是事實，簡明和明確的。

這些特性允許簡單、快速和事實性的評估。

評估

GAIA的設計的評估是自動化的、快速的、真實的。

在實踐中，除非另有說明，否則每個問題都需要一個答案，這個答案要么是一個字符串（一個或幾個單詞），一個數字，要么是用逗號分隔的字符串或浮點列表。

每個問題，只有一個正確答案。

因此，評估是通過模型的答案和地面真值之間的準確匹配來完成的。

如下圖，回答GAIA問題時，像GPT-4這樣的人工智能助手，需要完成幾個步驟，可能需要使用工具或者讀取文件。

GAIA的構成

想要在GAIA上獲得完美的分數，大模型需要先進的推理能力、多模態的理解、編碼能力和一般的工具使用，例如網頁瀏覽。

根據解決問題所需步驟的數量和回答問題所需的不同工具的數量，可以將問題分為三個難度增加的級別。

- 1級問題通常不需要任何工具，或者最多只需要一個工具，但不超過5個步驟。

- 第2級問題通常涉及更多的步驟，大約在5到10之間，需要結合不同的工具。

- 第三級是一個近乎完美的普通助理的問題，需要采取任意長的動作序列，使用任意數量的工具，并進入一般的世界。

GPT-4表現如何

使用GAIA評估大型語言模型只需要具備向模型發出提示的能力，即API訪問權限。

研究人員在提問前使用一個前綴提示詞，以便于提取答案，具體參見下圖。

研究人員評估了GPT-4帶插件和不帶插件的版本，以及以GPT-4為后端的AutoGPT。

目前，GPT-4需要手動選擇插件。相反，AutoGPT能夠自動進行這一選擇。

研究人員采用的的非LLM基準包括人類注釋者和網絡搜索。對于后者，他們在搜索引擎中輸入問題，并檢查是否能從搜索結果的第一頁中推導出答案。

這使他們能夠評估研究人員的問題答案是否可以輕松地在網絡上找到。只要API可用，就運行模型三次，并呈現得到的平均結果。

GPT-4插件

與GPT-4不同的是，目前還沒有帶插件的GPT-4 API，研究人員不得不手動進行ChatGPT查詢。

在撰寫本文時，用戶必須手動在一個高級數據分析模式（具有代碼執行和文件讀取能力）和最多三個第三方插件之間進行選擇。研究人員根據任務給定的最重要功能的最佳猜測，選擇第一種模式或選擇第三方插件。研究人員通常依賴于：

（i）一個用于閱讀各種類型鏈接的工具，

（ii）一個網絡瀏覽工具，

（iii）一個用于計算的工具。

遺憾的是，目前無法在一段時間內使用一組穩定的插件，因為插件經常更改或從商店中消失。

同樣，GPT-4的官方搜索工具也被移除，因為它可能繞過付費墻，但最近又重新推出。因此，研究人員對帶插件的GPT4的評分是GPT-4潛力的「預估」，是基于更穩定和自動選擇插件的估計。

結果

研究人員的評估結果如下圖所示。

研究人員提出的難度等級，大致根據步驟數量和使用的不同能力數量定義，與當前模型的性能相關，增強了它們的有效性。

雖然人類在所有層面上表現出色，但當前最好的LLM表現不佳。

總的來說，GAIA允許清晰地對有能力的助手進行排名，同時也為未來幾個月甚至幾年的改進留下了很大的空間。

人類通過網絡搜索可能會獲得文本結果，從中可以推斷出一級難度問題的正確答案，但當涉及到稍微復雜一點的查詢時，這種方法就不那么有效了，并且比典型的大型語言模型（LLM）助手稍慢，因為用戶需要瀏覽首批搜索結果。

這證實了LLM助手作為搜索引擎的競爭者的潛力。

GPT-4在沒有插件的情況下的結果與其他情況的差異表明，通過工具API或訪問網絡增強LLM可以提高答案的準確性，并解鎖許多新的用例，確認了這一研究方向的巨大潛力。

特別是，GPT-4加上插件表現出了諸如回溯或查詢優化等行為，當結果不令人滿意時，以及相對較長的計劃執行時間。

AutoGPT-4允許GPT-4自動使用工具，但其在二級難度，甚至與不帶插件的GPT-4相比，一級難度的結果也令人失望。這種差異可能來自AutoGPT-4依賴GPT-4 API（提示和生成參數）的方式。

與其他LLM相比，AutoGPT-4也較慢。總的來說，人類與帶插件的GPT4的合作似乎到目前為止提供了最佳的得分與所需時間比。

下圖顯示了按能力劃分的模型得分。

不出所料，GPT-4無法處理文件和多模態問題，但能夠解決注釋者使用網絡瀏覽解決的問題，主要是因為它正確地記住了需要結合起來才能得到答案的信息片段。

責任編輯：張燕妮來源：新智元

模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hinton和LeCun再交鋒，激辯LLM能否引發智能奇點！LeCun：人類理解能力碾壓GPT-4

通用人工智能助手基準——GAIA

評估

GAIA的構成

GPT-4表現如何

GPT-4插件

結果