成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1的規劃能力如何?LRM是未來嗎?

發布于 2024-11-28 15:27
瀏覽
0收藏

嘿,大家好!這里是一個專注于AI智能體的頻道~

今天給大家分享一個新研究,前頂會AAAI主席Subbarao Kambhampati發布的論文。

o1的規劃能力如何?LRM是未來嗎?-AI.x社區


能夠規劃一系列行動以實現預期目標,長期以來被認為是智能體的核心能力之一,并自人工智能研究之初便成為其不可或缺的一部分。隨著大型語言模型(LLMs)的出現,關于它們是否具備這種規劃能力的問題引起了廣泛關注。我們于2022年開發的可擴展基準測試PlanBench,緊隨GPT-3的發布推出,至今仍是評估LLMs規劃能力的重要工具。盡管自GPT-3以來涌現了大量新的私有和開源LLMs,但在該基準測試上的進展卻出奇地緩慢。OpenAI聲稱,他們最近推出的o1(草莓)模型是專門構建和訓練的,旨在突破自回歸LLMs的常規限制,使其成為一種新型模型:大型推理模型(LRM)。本文以這一發展為契機,全面考察了當前LLMs和新LRMs在PlanBench上的表現。正如我們將看到的,盡管o1在該基準測試中的表現實現了量級上的飛躍,遠超競爭對手,但距離完全占據這一基準還有相當距離。這一進步也引發了關于準確性、效率和可靠性的討論,這些問題在部署此類系統前必須仔細考慮。

SOTA LLM模型在規劃能力方面仍然非常糟糕! 如下表:

  • 在未混淆的數據集-Blocksworld中,最好的LLMs(如LLaMA 3.1 405B)達到了62.6%的準確率。

在語義相同但句法混淆的數據集-Mystery Blocksworld中,所有LLMs的表現都遠遠落后,沒有一款模型的準確率超過5%。

o1的規劃能力如何?LRM是未來嗎?-AI.x社區

OpenAI的o1模型:是為了突破傳統自回歸LLMs的限制而設計和訓練的,屬于LRMs的一種。特點:

  • 結合了基礎LLM(可能是修改版的GPT-4)。
  • 通過RL訓練系統來指導推理過程,生成、篩選和選擇私有推理路徑。
  • 在預訓練階段和推理時可能使用了新的自適應推理過程。

o1評測

  • 在PlanBenc上,o1模型在Blocksworld問題上的表現顯著優于之前所有LLMs,正確回答了97.8%的問題。

然而,在Mystery Blocksworld問題上,o1的表現雖然超過所有先前的模型,但準確率也只有52.8%。

o1的規劃能力如何?LRM是未來嗎?-AI.x社區

o1的規劃能力如何?LRM是未來嗎?-AI.x社區

當處理更復雜問題時

o1模型的性能迅速下降。例如,在需要20到40步解決的更大Blocksworld問題上,o1的準確率僅為23.63%。

o1的規劃能力如何?LRM是未來嗎?-AI.x社區

o1最厲害的一點,是宣稱能夠準確識別無法解決的問題,這是規劃能力的一個重要方面。但是,實驗結果顯示,在被修改為無法解決的Blocksworld問題上,o1正確識別不可解問題的比例并不高,為27%,并且有時會錯誤地聲稱可解問題為不可解。

o1的規劃能力如何?LRM是未來嗎?-AI.x社區

最后是平衡成本和效率

下表中,大型推理模型(LRMs)比大型語言模型(LLMs)的成本要高得多。

  • o1模型的推理成本遠高于傳統LLMs,這可能會影響其在實際應用中的可行性。
  • o1的推理過程缺乏透明度,用戶無法控制推理過程中生成的“推理token”數量,這增加了成本的不可預測性。

o1的規劃能力如何?LRM是未來嗎?-AI.x社區

文末,作者提到,雖然我們的主要關注點是對o1在PlanBench上的表現進行量化評估,但我們也注意到一個值得提及的o1特性:當模型給出錯誤答案時,有時還會附帶一個富有創意但荒謬的理由,幾乎讓人覺得o1從“幻覺”進化到了“誤導”! 在一個案例中,模型認為一個不可解決的問題是可解決的,因為雖然目標條件沒有在最終狀態中出現,但在執行過程中某個時刻曾為真,因此它認為應該繼續算數。在另一個案例中,模型聲稱on(a,c)為真,因為它在簡短的括號說明中解釋道,a在b上,b在c上,因此a在某種程度上位于c的上方,應該算作“在它上面”。

本文轉載自??探索AGI??,作者: 獼猴桃????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 少妇淫片aaaaa毛片叫床爽 | 午夜欧美a级理论片915影院 | 国产精品综合视频 | 91电影在线播放 | 九九热在线视频观看这里只有精品 | 在线观看国产视频 | 亚洲精品视频在线观看视频 | 毛片免费在线 | 一区二区三区视频在线 | 久草.com| 午夜影院网站 | 国产伦精品一区二区 | 天天操人人干 | 亚洲视频精品在线 | av毛片在线播放 | 免费激情av | 91精品国产一区二区三区 | 日韩在线91 | 欧美性一区二区三区 | 日韩成人在线视频 | av中文在线观看 | av一级毛片| 国产欧美一区二区三区久久人妖 | 伊人国产精品 | 欧产日产国产精品国产 | 亚洲欧美激情视频 | 日韩欧美综合 | 国产精品成人一区 | 亚洲最新在线视频 | 激情一区二区三区 | 一级片aaa| 国产精品一区二区三 | 伦理午夜电影免费观看 | 超碰在线播 | 99精品免费久久久久久久久日本 | 国产成人久久精品一区二区三区 | 狠狠操狠狠干 | 国产日韩精品视频 | 91精品国产综合久久久密闭 | 亚洲日产精品 | 欧美黄在线观看 |