耗資1.3萬，ASU團隊揭秘o1推理王者！碾壓所有LLM成本超高，關鍵還會PUA

作者：新智元 2024-10-05 15:30:00

人工智能新聞

LLM不會規劃，大推理模型o1可以嗎？ASU團隊最新研究發現，o1-preview推理規劃能力是所有模型之最，但仍未觸及天花板。關鍵是，推理強，成本超高。

LLM依然不會規劃，LRM可以嗎？

OpenAI聲稱，草莓o1已經突破了自回歸LLM常規限制，成為一種新型的「大推理模型」（LRM）。

它能夠基于強化學習，通過CoT多步推理。并且，這種推理過程的代價，是高昂的。

來自ASU研究人員以此為契機，全面評估了當前LLM和新型LRM，在測試基準PlanBench上表現。

論文地址：https://arxiv.org/pdf/2409.13373

PlanBench是他們在22年提出，評估大模型規劃能力的測試基準。

在最新測試中，研究人員發現，o1-preview表現出色，大幅領先其他模型，但也未完全通過PlanBench基準測試。

其他LLM，在Mystery Blocksworld上的性能都不過5%。在基準上的結果曲線，和X軸幾乎融合。

足見，這些大模型的規劃能力，非常地弱。

不過，作者指出，規劃推理越長，o1-preview的準確率便會低于25%。

另外一個值得注意的點是，即便o1-preview超越了多數近似檢索的普通LLM，成為一種近似「推理器」。

但是，這種推理成本高達42美元/100個實例。

總而言之，o1在推理規劃方面開辟了新天地，但仍舊不是終極AI大腦。

最先進LLM，依然無法規劃

作者認為，o1模型以往LLM很大不同在于，前者被訓練成為近似「推理器」，而后者粗略視為「檢索器」。

由此，o1發布之后，研究人員對其與普通的LLM進行了區分，并將o1稱為「大推理模型」。

而要評估新模型的能力，以及局限性，還需要新的工具和評估方法。

PlanBench是在2022年GPT-3發布不久之后，亮相arXiv。此后，作者也在一個特定子集上（包含600個3-5 block問題的靜態數據集），重新測試模型。

盡管相繼出現的LLM參數規模越來越大，算力成本越來越高，但它們在簡單的規劃問題上，依舊無法實現飽和。

而且，多項研究中的改進并不穩健，可推廣力沒有那么高。

因此，PlanBench可以作為LLM和LRM在推理規劃任務上，是否取得進步的一個衡量標準。

不過需要注意的是，這種測試只能作為性能的上限，尤其局限于靜態測試集。

如下表1中，展示了當前大模型在600個3-5 Blocksworld靜態問題測試集，以及600個語義相同但語法混淆的實例Mystery Blocksworld中的結果。

在這些模型中，Llama 3.1 405B在常規Blocksworld上，取得了最佳性能62.6%。

然而，盡管本質問題相同，許多模型在Mystery Blocksworld上，性能大打折扣幾乎潰敗。

沒有一個模型，在PlanBench測試集中，達到5%的性能。

這是因為，LLM非常擅長提供等效表征之間的轉換。

因此，大模型在Blocksworld未混淆語義語法的問題上，性能更高。這也預示著，如果LLM能夠組合推理操作，明確提供從Mystery Blocksworld到Blocksworld表征翻譯，或許LLM在此的性能差距應該會大幅縮小。

通過重寫提示，研究人員發現，性能僅是提高了很小一部分—— GPT-4達到了10%。

作者還發現，與之前結果相反，單樣本提示（one-shot）相較于零樣本，并沒有顯著改善模型性能。

事實上，在許多模型中，one-shot效果似乎要差得多！

這一點，在對Llama系列模型的測試中，最為明顯。

順便提一句，在起初基準迭代中，研究人員并沒有考慮效率問題，因為普通LLM生成某些輸出，所需時間只取決于輸出長度，與實例的語義內容、難度無關。

然而，LRM會根據輸入內容，自適應改變每個實例所需的時間和成本，因此衡量計算效率變得尤為重要。

對此，ASU團隊計算了不同模型的提示成本，如下表4所示。

看得出，100個實例，o1-preview推理的代價最高，為42.12美金。

接下來，就到了評估o1在PlanBench基準上的能力了。

從近似檢索到近似推理

很多研究者都曾認為，通過近似檢索來生成輸出的「標準」自回歸LLM，盡管能夠在一系列系統1（快速、直覺性思考）任務中有著優異的表現，但不太可能具備更類似于系統2（慢速、分析性思考）的近似推理能力，而這種能力對于規劃任務來說至關重要。

如今，OpenAI試圖在o1上以不同的方式為底層LLM增添類似系統2的能力。

根據研究人員的推測，o1將底層LLM（很可能是經過修改的GPT-4o）與一個經過強化學習訓練的系統相結合，該系統引導思維鏈推理軌跡的創建、整理和最終選擇。

由此可知，o1與其他LLM存在兩個主要區別：

第一，新增了一個額外的強化學習預訓練階段（可能是從大量合成數據中學習不同思維鏈的q值）；

第二，采用了一個新的自適應擴展推理程序（可能是通過類似rollout的方式進一步細化學習到的q值，然后再選擇特定的思維鏈）。

不管怎樣，從已知的細節來看，這個模型在本質上與之前的LLM有根本的差異。

在原始測試集上評估LRM

在需要2到16步計劃來解決的原始Blocksworld測試上，o1實現了高達97.8%的正確率。在Mystery Blocksworld上，也有著52.8%的正確率。

更進一步，研究人員通過完全隨機的字符串生成了新的混淆，并以此得到了難度更高的Randomized Mystery Blocksworld。

在這個測試中，o1仍能答對37.3%的問題——與那些一題都答不上來的LLM形成了鮮明對比。

擴大問題規模

LLM的思維鏈提示是非常脆弱的，很難隨著問題規模的增大而穩健地擴展，而且不能誘導出通用的算法程序跟隨。

為此，研究人員構建了一組有著110個實例的Blocksworld測試。其中，block的數量從6到20個不等，需要20到40步計劃才能完成。

在不做任何混淆處理的情況下，o1-preview僅僅達到了23.63%的準確率，而且大部分都是來自于那些需要少于28步的問題。

可見，模型的性能還遠未達到穩健的程度。

不可解的實例

一直以來，LLM都難以判斷一個問題是否有解，而OpenAI則聲稱o1已經能夠進行準確地識別了。

為了系統地測試這一點，研究人員修改了原始測試集中的100個實例——通過在每個實例的目標狀態中添加一個on(x,y)類型的連接詞，使目標變得不可滿足。

結果顯示，在Blocksworld中，o1只正確且明確地識別出了27%的實例是不可解的。

在19%的情況下，模型會返回一個點或某種「[empty plan]」標記，但沒有對可解性做出任何解釋或說明。這是不正確的，因為「empty plan」只有在目標已經滿足的情況下才是正確答案。

在剩余的54%的情況下，模型生成了一個「完整」的計劃。顯然，這是不可能也是不正確的。

在Randomized Mystery Blocksworld中，結果更糟：

- 16%的情況正確識別出了問題不可解

- 5%的情況返回了「empty plan」

- 79%的情況給出了一個不可能或不滿足目標的計劃

可見，不可解實例仍然是LRM的一個問題。

不僅如此，這種識別能力也是有代價的——o1有時會錯誤地聲稱可解的問題是不可解的（假陰性）。

在Randomized Mystery Blocksworld中，模型的假陰性率達到了11.5%。

準確性和成本的權衡與保證

隨著LRM在規劃任務上取得更好的性能，評估也必須明確考慮，選擇通用模型而非成熟專門系統來帶的利弊。

雖然o1-preview準確性超越LLM，但缺乏的是正確性保證。

而且，目前尚不清楚它是否具備成本效益。

與之前模型不同的是，o1 API每次調用價格還包括基于使用「推理token」數量附加費用，并按照最高輸出token計費。（這些token是在推理過程中生成，并沒有直觀展示出來）

這也就意味著，o1 API費用用戶是無法控制的。

作者表示，o1推出不到一周，他們在PlanBench基準上測試模型，竟花費了1897.55大洋（約13300元）！

而且，能夠訪問的o1-preview似乎在每個問題上，使用的推理token數量受到限制。

這一點也可以從圖2的平穩變化中，可以看出。（包括如下散點圖）

這就存在一種認為降低總成本，最高性能的因素。

如果完整版o1取消這一限制后，可能會提高整體準確性，但隨之帶來的高昂推理成本更加難以預測（只會更加離譜）。

o1-mini雖然更具性價比，但總體性能還是較差。

由此，o1模型在成本、推理時間、保證、性能權衡上，僅是一種粗粒度的評估選擇。

經典的規劃器Fast Downward在數據集上，能夠以更少時間、計算、成本，實現了100%準確率，同時能夠保證答案準確度。

而在PC上運行Fast Downward基本上不需要花什么錢，平均每個實例耗時0.265秒。這要比如上表2中，o1平均時間快了幾個數量級。

它通常也是可預測的，而且能直接擴展到更難的實例。

普通LLM非常擅長在不同格式之間轉換問題，并可以結合Fast Downward一起使用，成本還僅是LRM一小部分。

對于沒有簡單PDDL域和實例規范的問題，LLM-Modulo系統可能是一種更安全、更便宜的方法。

即將一個較小、較快的LLM與一個可靠的驗證器循環運行，使得組合系統只輸出保證正確的解決方案。

后面這兩種方法提供正確性保證，卻在o1這樣的LRM中嚴重缺失。

如果一個通過那個推理AI非常自信地制定錯誤計劃，就不能部署在安全關鍵和非遍歷領域。

當前，o1還是一個完全黑盒系統，要比之前模型更甚。OpenAI不僅保密其架構和推理過程，還警告禁止想要了解內部機制的用戶。

這也就讓o1的可解釋性變為不可能，也降低了整個系統信任度。

o1的創造性解釋

值得一提的是，當模型給出錯誤答案時，它有時還會為其決定提供一個富有創意但毫無意義的解釋。

換句話說就是，o1從產生幻覺變成了PUA……

在一個案例中，它認為一個無法解決的問題是可以解決的，因為一個目標條件雖然在最終狀態中不存在，但在執行過程中的某個時點是真的，因此應該繼續計算。

在另一個案例中，它宣稱on(a,c)是真的，因為正如「on(a,c)」的字面意思，a在b上，而b在c上，因此a在c的「上方」。

結論

總結而言，LLM在原始Blocksworld測試集上的表現，會隨著時間的推移有所提升。

其中，表現最佳的是Llama 3.1 405B——準確率高達62.5%。

然而，這些模型在同一領域的混淆版本上的糟糕表現，暴露了它們「近似檢索」的本質。

相比之下，新的LRM，也就是o1，不僅幾乎接近完美解決了原始Blockworld測試集，而且在混淆版本上首次取得了進展。

受此鼓舞，研究人員又評估了o1在更長問題和無解問題上的表現。

但結果顯示，之前這些準確率的提升既不具有泛化性，也不具有穩健性。

最后，團隊希望這份研究報告能夠很好地展示LLM和LRM的規劃能力，并為如何切實評估它們提供有用的建議。

責任編輯：張燕妮來源：新智元

LLM 模型推理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看