成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<mark id="asoem"><form id="asoem"></form></mark>

<button id="asoem"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！原創(chuàng)

發(fā)布于 2024-10-8 11:08

瀏覽

0收藏

一、引言

OpenAI發(fā)布的草莓o1模型為評估大語言模型（LLMs）在規(guī)劃和調(diào)度基準(zhǔn)上的進(jìn)展提供了新的機(jī)會(huì)，但是它的規(guī)劃能力到底怎么樣呢？近期，規(guī)劃領(lǐng)域泰斗Subbarao Kambhampati教授領(lǐng)銜的論文對其進(jìn)行了研究，旨在全面評估o1在既定規(guī)劃和調(diào)度基準(zhǔn)上的性能，并展示如何通過將大型推理模型（Large Reasoning Model, LRM）嵌入到帶有可靠驗(yàn)證器的循環(huán)中，為其輸出提供正確性保證并提高性能。

Subbarao Kambhampati一直是經(jīng)典AI的代表人物，在規(guī)劃領(lǐng)域造詣很深。熟悉他的讀者一定知道，Subbarao Kambhampati對大語言模型一直持保守態(tài)度。關(guān)于Subbarao Kambhampati教授的工作，我們前兩天曾經(jīng)報(bào)道過哦！感興趣的讀者可以參考《啥？！AAAI前主席Subbarao Kambhampati告訴你：大模型不能planning！》

本文評估了兩種大型推理模型（LRM）o1-preview和o1-mini在規(guī)劃和調(diào)度基準(zhǔn)上的能力。結(jié)果表明，o1在某些方面優(yōu)于基于自回歸的大語言模型（LLMs），但推理成本較高，且無法保證生成結(jié)果的正確性。通過將o1模型與外部驗(yàn)證器結(jié)合，可以保證組合系統(tǒng)輸出的正確性，同時(shí)進(jìn)一步提高性能。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

二、背景和相關(guān)工作

（一）規(guī)劃領(lǐng)域

LLM在規(guī)劃任務(wù)上表現(xiàn)出一定的局限性，即使在簡單的領(lǐng)域也可能失敗。本文關(guān)注經(jīng)典規(guī)劃問題，使用PlanBench基準(zhǔn)測試，并在Blocksworld和Mystery Blocksworld等領(lǐng)域進(jìn)行測試。

（二）調(diào)度領(lǐng)域

調(diào)度問題主要圍繞資源分配，本文在Natural Plan、TravelPlanner和graph coloring等調(diào)度基準(zhǔn)上評估o1，這些基準(zhǔn)涵蓋了旅行規(guī)劃、日歷調(diào)度和會(huì)議規(guī)劃等多個(gè)方面。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

表1：不同系列的大型語言模型在Blocksworld和Mystery Blocksworld領(lǐng)域的600個(gè)實(shí)例上的性能，使用了零次提示和一次提示。同類最佳準(zhǔn)確率用粗體顯示。

三、從近似檢索到近似推理

（一）o1的架構(gòu)

o1結(jié)合了底層的LLM和類似System 2的能力，可能經(jīng)過強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練和自適應(yīng)推理過程，使其在本質(zhì)上與之前的LLM有很大不同。

（二）規(guī)劃能力評估

PlanBench測試

在原始600實(shí)例PlanBench測試集上，o1-preview在Blocksworld實(shí)例中正確回答率高達(dá)97.8%，遠(yuǎn)超LLM，但在Mystery Blocksworld上性能有所下降。
隨著問題規(guī)模增加，性能會(huì)快速下降，在110個(gè)更難的Blocksworld問題上，o1-preview僅能達(dá)到23.63%的準(zhǔn)確率。
在識別不可解問題方面，o1雖然有一定能力，但仍存在誤判情況，有時(shí)會(huì)錯(cuò)誤地聲稱可解問題不可解，或者為不可解問題提供錯(cuò)誤的計(jì)劃。

擴(kuò)展到更難的領(lǐng)域

在Sokoban領(lǐng)域，o1-preview和o1-mini分別能正確回答12.7%和10.9%的實(shí)例，而Llama3.1 - 405B在這些實(shí)例上全部答錯(cuò)。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

圖1：這些示例是關(guān)于Mystery Blocksworld的。Fast Downward是一種與領(lǐng)域無關(guān)的規(guī)劃器，它能近乎即時(shí)地解決所有給定實(shí)例，并保證完美的準(zhǔn)確性。大語言模型（LLMs）即使在最小的實(shí)例上也很困難。測試的兩種大型推理模型（LRMs），o1 - preview和o1 - mini，效果驚人，但這種性能仍然不夠穩(wěn)健，并且會(huì)隨著長度的增加而迅速下降。

（三）調(diào)度能力評估

Graph Coloring

o1-mini在原始220個(gè)圖著色問題上解決了96%，超過了GPT - 4的16%。在擴(kuò)展的更難的圖著色測試集上，o1-mini解決了50%，o1-preview解決了64%。

Travel Planning

在TravelPlanner的180個(gè)實(shí)例驗(yàn)證集中，o1-preview解決了10%的實(shí)例，略高于GPT - 4 - turbo的4.4%，o1-mini解決了1.67%的實(shí)例。

Natural Plan

在Natural Plan的三個(gè)領(lǐng)域中，o1-mini在日歷調(diào)度領(lǐng)域解決了94%的實(shí)例，但在旅行規(guī)劃和會(huì)議規(guī)劃領(lǐng)域表現(xiàn)不佳。

草莓OpenAI o1的規(guī)劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區(qū)

表2：OpenAI的o1系列大型推理模型和Fast Downward（F.D.）在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld領(lǐng)域的600個(gè)實(shí)例以及Logistics和Randomized Logistics領(lǐng)域的200個(gè)實(shí)例上的性能和平均耗時(shí)

四、準(zhǔn)確性/成本權(quán)衡和保證

（一）成本比較

LRM的成本顯著高于LLM，o1-preview和o1-mini每100個(gè)實(shí)例的成本分別為和3.69，而一些LLM每100個(gè)實(shí)例的成本在到1.80之間。

（二）權(quán)衡分析

雖然o1-preview在準(zhǔn)確性上可能高于LLM，但它無法提供正確性保證，且成本效益不明確。相比之下，古典規(guī)劃器如Fast Downward在成本、時(shí)間和保證正確性方面具有優(yōu)勢，而LLM - Modulo系統(tǒng)可以在較低成本下提供保證的解決方案。

五、LRM - Modulo提升o1并提供保證

（一）方法介紹

本文提出通過外部驗(yàn)證器增強(qiáng)o1，將其集成到LRM - Modulo系統(tǒng)中，以提高整體性能并提供輸出保證。

（二）實(shí)驗(yàn)結(jié)果

在五個(gè)最難的測試集上進(jìn)行測試，結(jié)果表明即使迭代次數(shù)有限，性能也有顯著提升。例如，在更難的Blocksworld問題上，o1-preview結(jié)合系統(tǒng)的準(zhǔn)確率達(dá)到98.2%，在Sokoban領(lǐng)域從12.7%提升到43.6%。

六、結(jié)論

本文評估了o1-preview和o1-mini在規(guī)劃和調(diào)度基準(zhǔn)上的性能。o1在一些方面取得了進(jìn)展，但在處理長問題和確定問題可解性方面存在不足。同時(shí)討論了準(zhǔn)確性和效率的權(quán)衡，并展示了LRM - Modulo方法可應(yīng)用于LRM以提高性能和提供保證。未來的評估需要關(guān)注這些因素，以保持其意義和相關(guān)性。

本文轉(zhuǎn)載自公眾號AIGC最前線作者：實(shí)習(xí)小畢?

原文鏈接：??https://mp.weixin.qq.com/s/HjAkw-0SUUH0WccBDgbr_g???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-10-8 11:08:18修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成規(guī)劃任務(wù)！

AIGC最前線 ? 3066瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類博士！

Aceryt ? 2752瀏覽 ? 0回復(fù)
OpenAI發(fā)布突破性AI模型o1系列，推理能力大幅躍升重塑行業(yè)格局

芝士AI吃魚 ? 2869瀏覽 ? 0回復(fù)
OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實(shí)測：有坑，很難說

51CTO技術(shù)棧 ? 3350瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3881瀏覽 ? 0回復(fù)
OpenAI o1很強(qiáng)，也能被玩壞！

PaperAgent ? 2601瀏覽 ? 0回復(fù)
OpenAI發(fā)布新模型：o1系列模型，更像理科生的模型

大語言模型論文跟蹤 ? 4362瀏覽 ? 0回復(fù)
從openAI最新模型GPT-o1再談思維鏈(Cot)技術(shù)，大模型該怎么提升其邏輯推理能力？

AI探索時(shí)代 ? 7380瀏覽 ? 0回復(fù)
使用 OpenAI o1 的五種方法「詳細(xì)指南」

51CTO技術(shù)棧 ? 5850瀏覽 ? 0回復(fù)
國內(nèi)大模型廠商是如何看待突然的OpenAI o1？跟不跟是個(gè)問題！

Syrupup ? 2451瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2530瀏覽 ? 0回復(fù)
被神化的o1模型，規(guī)劃能力到底如何？

大語言模型論文跟蹤 ? 3054瀏覽 ? 0回復(fù)
開源社區(qū)離Openai o1越來越近~

NLP前沿1 ? 2635瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2681瀏覽 ? 0回復(fù)
編程能力超o1，像人類一樣操作電腦，開啟Agent新時(shí)代！

51CTO技術(shù)棧 ? 2801瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來嗎？

探索AGI ? 2126瀏覽 ? 0回復(fù)
OpenAI o1 模型到來后，談?wù)勌崾驹~工程的未來

Baihai_IDP ? 2382瀏覽 ? 0回復(fù)
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來

小虎哦哦 ? 1.5w瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 2377瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實(shí)測來了 0回復(fù)

上一篇：經(jīng)典論文ReAct精讀

下一篇： COLM 2024：一種新的深度學(xué)習(xí)架構(gòu)——Monotone Deep Boltzmann Machines

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：欧美最猛性xxxxx亚洲精品 | 中文字幕一区二区三区四区 | 亚洲性综合网 | 三级成人在线观看 | 在线一级片 | 日韩精品色网 | 欧美精品第一页 | 日韩精品一区二区三区免费观看 | 欧美亚洲视频在线观看 | 国产人免费人成免费视频 | 国产精品精品视频一区二区三区 | 亚洲高清视频一区二区 | 欧美日韩国产一区二区三区不卡 | 久久精品天堂 | 请别相信他免费喜剧电影在线观看 | 福利一区二区在线 | 日本黄色免费大片 | www.玖玖玖 | 久久99视频 | 九色视频网站 | 中文字幕日韩一区 | 亚洲一区二区三区久久久 | 久久亚洲一区 | 国产精品久久久久久婷婷天堂 | 国产线视频精品免费观看视频 | 欧美一区2区三区4区公司 | 亚洲国产精品久久久 | 亚洲国产一区视频 | 免费观看的av毛片的网站 | 欧美一级欧美三级在线观看 | 欧美三级在线 | 日韩欧美黄色 | 午夜一级黄色片 | 99久久精品一区二区毛片吞精 | 五月槐花香 | 国产日韩欧美精品一区二区三区 | 久久亚洲精品视频 | 中文字幕一区在线观看视频 | 成人免费区一区二区三区 | 亚洲天堂精品一区 | 日韩精品一区在线 |

<button id="yidhu"><form id="yidhu"></form></button>