成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LeCun又雙叒唱衰自回歸LLM:GPT-4的推理能力非常有限,有兩篇論文為證

人工智能 新聞
論文作者表示,他們同樣認為 LLM 是了不起的「創(chuàng)意生成器」(無論是語言形式還是代碼形式),只是它們無法保證自己的規(guī)劃 / 推理能力。

「任何認為自動回歸式 LLM 已經接近人類水平的 AI,或者僅僅需要擴大規(guī)模就能達到人類水平的人,都必須讀一讀這個。AR-LLM 的推理和規(guī)劃能力非常有限,要解決這個問題,并不是把它們變大、用更多數(shù)據(jù)進行訓練就能解決的。」

圖片

一直以來,圖靈獎得主 Yann LeCun 就是 LLM 的「質疑者」,而自回歸模型是 GPT 系列 LLM 模型所依賴的學習范式。他不止一次公開表達過對自回歸和 LLM 的批評,并產出了不少金句,比如:

「從現(xiàn)在起 5 年內,沒有哪個頭腦正常的人會使用自回歸模型。」

「自回歸生成模型弱爆了!(Auto-Regressive Generative Models suck!)」

「LLM 對世界的理解非常膚淺。」

讓 LeCun 近日再次發(fā)出疾呼的,是兩篇新發(fā)布的論文:

「LLM 真的能像文獻中所說的那樣自我批判(并迭代改進)其解決方案嗎?我們小組的兩篇新論文在推理 (https://arxiv.org/abs/2310.12397) 和規(guī)劃 (https://arxiv.org/abs/2310.08118) 任務中對這些說法進行了調查(并提出了質疑)。」

看起來,這兩篇關于調查 GPT-4 的驗證和自我批判能力的論文的主題引起了很多人的共鳴。

論文作者表示,他們同樣認為 LLM 是了不起的「創(chuàng)意生成器」(無論是語言形式還是代碼形式),只是它們無法保證自己的規(guī)劃 / 推理能力。因此,它們最好在 LLM-Modulo 環(huán)境中使用(環(huán)路中要么有一個可靠的推理者,要么有一個人類專家)。自我批判需要驗證,而驗證是推理的一種形式(因此對所有關于 LLM 自我批判能力的說法都感到驚訝)。

同時,質疑的聲音也是存在的:「卷積網絡的推理能力更加有限,但這并沒有阻止 AlphaZero 的工作出現(xiàn)。這都是關于推理過程和建立的 (RL) 反饋循環(huán)。我認為模型能力可以進行極其深入的推理(例如研究級數(shù)學)。」

圖片

對此,LeCun 的想法是:「AlphaZero「確實」執(zhí)行規(guī)劃。這是通過蒙特卡洛樹搜索完成的,使用卷積網絡提出好的動作,并使用另一個卷積網絡來評估位置。探索這棵樹所花費的時間可能是無限的,這就是推理和規(guī)劃。」

在未來的一段時間內,自回歸 LLM 是否具備推理和規(guī)劃能力的話題或許都不會有定論。

接下來,我們可以先看看這兩篇新論文講了什么。

論文 1:GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇論文引發(fā)了研究者對最先進的 LLM 具有自我批判能力的質疑,包括 GPT-4 在內。

圖片

論文地址:https://arxiv.org/pdf/2310.12397.pdf

接下來我們看看論文簡介。

人們對大型語言模型(LLM)的推理能力一直存在相當大的分歧,最初,研究者樂觀的認為 LLM 的推理能力隨著模型規(guī)模的擴大會自動出現(xiàn),然而,隨著更多失敗案例的出現(xiàn),人們的期望不再那么強烈。之后,研究者普遍認為 LLM 具有自我批判( self-critique )的能力,并以迭代的方式改進 LLM 的解決方案,這一觀點被廣泛傳播。

然而事實真的是這樣嗎?

來自亞利桑那州立大學的研究者在新的研究中檢驗了 LLM 的推理能力。具體而言,他們重點研究了迭代提示(iterative prompting)在圖著色問題(是最著名的 NP - 完全問題之一)中的有效性。

該研究表明(i)LLM 不擅長解決圖著色實例(ii)LLM 不擅長驗證解決方案,因此在迭代模式下無效。從而,本文的結果引發(fā)了人們對最先進的 LLM 自我批判能力的質疑。

論文給出了一些實驗結果,例如,在直接模式下,LLM 在解決圖著色實例方面非常糟糕,此外,研究還發(fā)現(xiàn) LLM 并不擅長驗證解決方案。然而更糟糕的是,系統(tǒng)無法識別正確的顏色,最終得到錯誤的顏色。

如下圖是對圖著色問題的評估,在該設置下,GPT-4 可以以獨立和自我批判的模式猜測顏色。在自我批判回路之外還有一個外部聲音驗證器。

圖片

結果表明 GPT4 在猜測顏色方面的準確率低于 20%,更令人驚訝的是,自我批判模式(下圖第二欄)的準確率最低。本文還研究了相關問題:如果外部聲音驗證器對 GPT-4 猜測的顏色提供可證明正確的批判,GPT-4 是否會改進其解決方案。在這種情況下,反向提示確實可以提高性能。

即使 GPT-4 偶然猜出了一個有效的顏色,它的自我批判可能會讓它產生幻覺,認為不存在違規(guī)行為。

最后,作者給出總結,對于圖著色問題:

  • 自我批判實際上會損害 LLM 的性能,因為 GPT-4 在驗證方面很糟糕;
  • 來自外部驗證器的反饋確實能提高 LLM 的性能。

論文 2:Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在論文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中,研究團隊探究了 LLM 在規(guī)劃(planning)的情境下自我驗證 / 批判的能力。

這篇論文對 LLM 批判自身輸出結果的能力進行了系統(tǒng)研究,特別是在經典規(guī)劃問題的背景下。雖然最近的研究對 LLM 的自我批判潛力持樂觀態(tài)度,尤其是在迭代環(huán)境中,但這項研究卻提出了不同的觀點。

論文地址:https://arxiv.org/abs/2310.08118

令人意外的是,研究結果表明,自我批判會降低規(guī)劃生成的性能,特別是與具有外部驗證器和 LLM 驗證器的系統(tǒng)相比。LLM 會產生大量錯誤信息,從而損害系統(tǒng)的可靠性。

研究者在經典 AI 規(guī)劃域 Blocksworld 上進行的實證評估突出表明,在規(guī)劃問題中,LLM 的自我批判功能并不有效。驗證器可能會產生大量錯誤,這對整個系統(tǒng)的可靠性不利,尤其是在規(guī)劃的正確性至關重要的領域。

有趣的是,反饋的性質(二進制或詳細反饋)對規(guī)劃生成性能沒有明顯影響,這表明核心問題在于 LLM 的二進制驗證能力,而不是反饋的粒度。

如下圖所示,該研究的評估架構包括 2 個 LLM—— 生成器 LLM + 驗證器 LLM。對于給定的實例,生成器 LLM 負責生成候選規(guī)劃,而驗證器 LLM 決定其正確性。如果發(fā)現(xiàn)規(guī)劃不正確,驗證器會提供反饋,給出其錯誤的原因。然后,該反饋被傳輸?shù)缴善?LLM 中,并 prompt 生成器 LLM 生成新的候選規(guī)劃。該研究所有實驗均采用 GPT-4 作為默認 LLM。

該研究在 Blocksworld 上對幾種規(guī)劃生成方法進行了實驗和比較。具體來說,該研究生成了 100 個隨機實例,用于對各種方法進行評估。為了對最終 LLM 規(guī)劃的正確性進行真實評估,該研究采用了外部驗證器 VAL。

如表 1 所示,LLM+LLM backprompt 方法在準確性方面略優(yōu)于非 backprompt 方法。

在 100 個實例中,驗證器準確識別了 61 個(61%)。

圖片

下表顯示了 LLM 在接受不同級別反饋(包括沒有反饋)時的表現(xiàn)。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-06 08:00:00

AILLM

2023-03-27 17:45:16

研究AI

2023-11-26 17:14:05

2023-11-03 13:07:00

AI模型

2023-06-19 08:19:50

2017-03-13 16:58:05

戴爾

2024-08-08 13:04:28

2024-03-05 11:18:14

模型訓練

2023-10-10 13:51:46

GPT-4GitHubAI

2023-05-15 15:38:59

AI模型

2024-02-27 09:43:48

視頻模型

2024-04-30 12:35:10

AI模型

2025-04-16 09:35:03

2021-11-26 09:55:09

微軟漏洞補丁

2019-06-06 15:44:21

人工智能寒冬AI

2023-05-17 18:38:58

宕機認證令牌

2023-07-25 09:23:23

Llama 2GPT-4

2023-03-23 21:57:06

OpenAIChatGPTAI

2024-01-22 08:50:00

AI訓練

2023-03-13 00:17:15

GPT-4模型API
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 超碰美女在线 | 亚洲精品美女在线观看 | 色性av | 亚洲综合大片69999 | 91麻豆精品国产91久久久久久久久 | 色婷婷一区二区三区四区 | 黄久久久 | 波多野结衣二区 | 成人免费观看男女羞羞视频 | 亚洲成人一级 | 7777奇米影视| 手机av在线| 色五月激情五月 | 日本黄色片免费在线观看 | 久久久精彩视频 | 欧美激情亚洲 | 国产精品视屏 | 欧美精品福利视频 | 亚洲 自拍 另类 欧美 丝袜 | 精品乱码一区二区三四区视频 | 色视频免费| 成年人黄色一级片 | 亚洲精品一区二区 | 午夜爽爽男女免费观看hd | 国产视频观看 | 一级做a爰片性色毛片视频停止 | 欧美一区二区三区视频在线播放 | 亚洲国产精品一区二区www | 日韩免费毛片视频 | 色免费视频| 成人精品 | 国产午夜精品久久 | 国产99久久精品一区二区永久免费 | 精品久久久久久18免费网站 | 国产视频中文字幕 | 中文字幕一区二区三区四区不卡 | 黄色一级大片在线免费看产 | 视频国产一区 | 亚洲欧美日韩精品久久亚洲区 | 久久综合狠狠综合久久综合88 | 中文天堂在线观看 |