草莓OpenAI o1的規(guī)劃能力怎么樣?泰斗Subbarao Kambhampati給你答案! 原創(chuàng)
一、引言
OpenAI發(fā)布的草莓o1模型為評估大語言模型(LLMs)在規(guī)劃和調(diào)度基準(zhǔn)上的進(jìn)展提供了新的機(jī)會(huì),但是它的規(guī)劃能力到底怎么樣呢?近期,規(guī)劃領(lǐng)域泰斗Subbarao Kambhampati教授領(lǐng)銜的論文對其進(jìn)行了研究,旨在全面評估o1在既定規(guī)劃和調(diào)度基準(zhǔn)上的性能,并展示如何通過將大型推理模型(Large Reasoning Model, LRM)嵌入到帶有可靠驗(yàn)證器的循環(huán)中,為其輸出提供正確性保證并提高性能。
Subbarao Kambhampati一直是經(jīng)典AI的代表人物,在規(guī)劃領(lǐng)域造詣很深。熟悉他的讀者一定知道,Subbarao Kambhampati對大語言模型一直持保守態(tài)度。關(guān)于Subbarao Kambhampati教授的工作,我們前兩天曾經(jīng)報(bào)道過哦!感興趣的讀者可以參考《啥?!AAAI前主席Subbarao Kambhampati告訴你:大模型不能planning!》
本文評估了兩種大型推理模型(LRM)o1-preview和o1-mini在規(guī)劃和調(diào)度基準(zhǔn)上的能力。結(jié)果表明,o1在某些方面優(yōu)于基于自回歸的大語言模型(LLMs),但推理成本較高,且無法保證生成結(jié)果的正確性。通過將o1模型與外部驗(yàn)證器結(jié)合,可以保證組合系統(tǒng)輸出的正確性,同時(shí)進(jìn)一步提高性能。
二、背景和相關(guān)工作
(一)規(guī)劃領(lǐng)域
LLM在規(guī)劃任務(wù)上表現(xiàn)出一定的局限性,即使在簡單的領(lǐng)域也可能失敗。本文關(guān)注經(jīng)典規(guī)劃問題,使用PlanBench基準(zhǔn)測試,并在Blocksworld和Mystery Blocksworld等領(lǐng)域進(jìn)行測試。
(二)調(diào)度領(lǐng)域
調(diào)度問題主要圍繞資源分配,本文在Natural Plan、TravelPlanner和graph coloring等調(diào)度基準(zhǔn)上評估o1,這些基準(zhǔn)涵蓋了旅行規(guī)劃、日歷調(diào)度和會(huì)議規(guī)劃等多個(gè)方面。
表1:不同系列的大型語言模型在Blocksworld和Mystery Blocksworld領(lǐng)域的600個(gè)實(shí)例上的性能,使用了零次提示和一次提示。同類最佳準(zhǔn)確率用粗體顯示。
三、從近似檢索到近似推理
(一)o1的架構(gòu)
o1結(jié)合了底層的LLM和類似System 2的能力,可能經(jīng)過強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練和自適應(yīng)推理過程,使其在本質(zhì)上與之前的LLM有很大不同。
(二)規(guī)劃能力評估
- PlanBench測試
- 在原始600實(shí)例PlanBench測試集上,o1-preview在Blocksworld實(shí)例中正確回答率高達(dá)97.8%,遠(yuǎn)超LLM,但在Mystery Blocksworld上性能有所下降。
- 隨著問題規(guī)模增加,性能會(huì)快速下降,在110個(gè)更難的Blocksworld問題上,o1-preview僅能達(dá)到23.63%的準(zhǔn)確率。
- 在識別不可解問題方面,o1雖然有一定能力,但仍存在誤判情況,有時(shí)會(huì)錯(cuò)誤地聲稱可解問題不可解,或者為不可解問題提供錯(cuò)誤的計(jì)劃。
- 擴(kuò)展到更難的領(lǐng)域
- 在Sokoban領(lǐng)域,o1-preview和o1-mini分別能正確回答12.7%和10.9%的實(shí)例,而Llama3.1 - 405B在這些實(shí)例上全部答錯(cuò)。
圖1:這些示例是關(guān)于Mystery Blocksworld的。Fast Downward是一種與領(lǐng)域無關(guān)的規(guī)劃器,它能近乎即時(shí)地解決所有給定實(shí)例,并保證完美的準(zhǔn)確性。大語言模型(LLMs)即使在最小的實(shí)例上也很困難。測試的兩種大型推理模型(LRMs),o1 - preview和o1 - mini,效果驚人,但這種性能仍然不夠穩(wěn)健,并且會(huì)隨著長度的增加而迅速下降。
(三)調(diào)度能力評估
- Graph Coloring
- o1-mini在原始220個(gè)圖著色問題上解決了96%,超過了GPT - 4的16%。在擴(kuò)展的更難的圖著色測試集上,o1-mini解決了50%,o1-preview解決了64%。
- Travel Planning
- 在TravelPlanner的180個(gè)實(shí)例驗(yàn)證集中,o1-preview解決了10%的實(shí)例,略高于GPT - 4 - turbo的4.4%,o1-mini解決了1.67%的實(shí)例。
- Natural Plan
- 在Natural Plan的三個(gè)領(lǐng)域中,o1-mini在日歷調(diào)度領(lǐng)域解決了94%的實(shí)例,但在旅行規(guī)劃和會(huì)議規(guī)劃領(lǐng)域表現(xiàn)不佳。
表2:OpenAI的o1系列大型推理模型和Fast Downward(F.D.)在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld領(lǐng)域的600個(gè)實(shí)例以及Logistics和Randomized Logistics領(lǐng)域的200個(gè)實(shí)例上的性能和平均耗時(shí)
四、準(zhǔn)確性/成本權(quán)衡和保證
(一)成本比較
LRM的成本顯著高于LLM,o1-preview和o1-mini每100個(gè)實(shí)例的成本分別為和3.69,而一些LLM每100個(gè)實(shí)例的成本在到1.80之間。
(二)權(quán)衡分析
雖然o1-preview在準(zhǔn)確性上可能高于LLM,但它無法提供正確性保證,且成本效益不明確。相比之下,古典規(guī)劃器如Fast Downward在成本、時(shí)間和保證正確性方面具有優(yōu)勢,而LLM - Modulo系統(tǒng)可以在較低成本下提供保證的解決方案。
五、LRM - Modulo提升o1并提供保證
(一)方法介紹
本文提出通過外部驗(yàn)證器增強(qiáng)o1,將其集成到LRM - Modulo系統(tǒng)中,以提高整體性能并提供輸出保證。
(二)實(shí)驗(yàn)結(jié)果
在五個(gè)最難的測試集上進(jìn)行測試,結(jié)果表明即使迭代次數(shù)有限,性能也有顯著提升。例如,在更難的Blocksworld問題上,o1-preview結(jié)合系統(tǒng)的準(zhǔn)確率達(dá)到98.2%,在Sokoban領(lǐng)域從12.7%提升到43.6%。
六、結(jié)論
本文評估了o1-preview和o1-mini在規(guī)劃和調(diào)度基準(zhǔn)上的性能。o1在一些方面取得了進(jìn)展,但在處理長問題和確定問題可解性方面存在不足。同時(shí)討論了準(zhǔn)確性和效率的權(quán)衡,并展示了LRM - Modulo方法可應(yīng)用于LRM以提高性能和提供保證。未來的評估需要關(guān)注這些因素,以保持其意義和相關(guān)性。
本文轉(zhuǎn)載自公眾號AIGC最前線 作者:實(shí)習(xí)小畢?
原文鏈接:??https://mp.weixin.qq.com/s/HjAkw-0SUUH0WccBDgbr_g???
