o1規劃能力首測！已超越語言模型范疇，preview終于贏mini一回

作者：量子位 2024-09-29 10:40:00

亞利桑那州立大學的最新研究表明，o1-preview在規劃任務上，表現顯著優于o1-mini。

o1-preview終于贏過了mini一次！

亞利桑那州立大學的最新研究表明，o1-preview在規劃任務上，表現顯著優于o1-mini。

相比于傳統模型的優勢更是碾壓級別，在超難任務上的準確率比Llama3.1-405B高了11倍。

要知道之前，OpenAI自己人也發了一張圖，顯示preview論性能比不過滿血版，論經濟性又不如mini，處于一個十分尷尬的地位。

作者在推文中表示，盡管存在可保證性和成本問題，但僅針對CoT而言，o1已經超越了大模型的“近似檢索”性質，提升到了“近似推理”層次。

并且在論文中，o1全程被稱作LRM（Large Reasoning Model，大型推理模型），而非一般大型語言模型的LLM。

o1團隊的核心成員Noam Brown也轉發了這項研究，順便給o1-preview打了個call。

還有網友翻出了隔壁Meta的LeCun半個多月前的推文，當時LeCun說大模型沒有規劃能力，結果現在OpenAI就帶著o1來踢館了。

為了評估o1系列模型的規劃能力，作者使用了PlanBench評估基準。

該基準的提出者中也正好包含了本文三名作者中的兩名——共同一作Karthik Valmeekam，以及他的導師Subbarao Kambhampati。

PlanBench專門為評估大模型規劃能力而設計，任務類型涵蓋了計劃生成、成本最優規劃、計劃驗證等。

具體到這個實驗，作者使用了其中來自于國際規劃競賽（IPC）的Blocksworld和其變體。

此類問題涉及在桌子上堆疊積木塊，目標是從一個初始狀態，重新排列到目標配置。

木塊用不同的顏色標識，一次只能移動一個積木塊，且只能移動每一堆中頂部的積木塊，被拿起的積木塊也只能放在頂部或直接放在桌子上。

變體Mystery Blocksworld則是在Blockworlds的基礎上加入混淆機制，用一些毫不相干的詞語來代替操作中的動作。

在此基礎之上，還有更為復雜的全隨機變體，指令進一步從其他英文單詞變成了無意義的字符串。

在o1之前，Blockworlds上的SOTA模型是Llama3.1-405B，成績為達到 62.6%，而在Mystery Blockworlds上，沒有任何模型的成績能超過5%。

o1這邊的測試結果顯示，preview相比mini，成績優勢十分明顯。

在Blockworlds任務上，preview版準確率達98%，而mini只有56.6%，表現還不如llama。

當然加入了混淆之后，mini相比于llama也顯示出了一些優勢——

在零樣本配置下，preview版的準確率超過了一半，比llama的4.3%高出了11倍多；mini版也達到了19.1%，比llama高3.4倍。

最后在全隨機版本下，o1-preview還能擁有37.3%的準確率。

以上結果顯示出了o1系列模型，特別是o1-preview的超強規劃能力，但是不足之處也十分明顯。

一是隨著規劃長度的增加，模型的性能也會迅速下降，即使對于未混淆的Blockworlds來說也同樣如此。

另外，Blockworlds系列問題并非全部可解，作者發現o1在識別不可解問題上的準確率依然存在不足。

對于未混淆版本準確率只有27%，但沒有誤判為不可解的情況；對于全隨機版本則只有16%，另外還有11.5%的概率將可解問題誤判為不可解。

甚至作者還發現，o1有時也會狡辯，提出令人信服的合理理由，讓人們相信其錯誤答案。

在模型本身的性能之外，成本和時間消耗也是一個重要考量，相比于傳統大模型，o1-mini的成本相比GPT4-Turbo直接翻番，preview更是高出了數量級。

那么，如果你是開發者，會愿意為了o1的高性能付出更多的成本嗎？

論文地址：https://arxiv.org/abs/2409.13373

責任編輯：張燕妮來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看