成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

耗資1.3萬,ASU團隊揭秘o1推理王者!碾壓所有LLM成本超高,關鍵還會PUA

人工智能 新聞
LLM不會規劃,大推理模型o1可以嗎?ASU團隊最新研究發現,o1-preview推理規劃能力是所有模型之最,但仍未觸及天花板。關鍵是,推理強,成本超高。

LLM依然不會規劃,LRM可以嗎?

OpenAI聲稱,草莓o1已經突破了自回歸LLM常規限制,成為一種新型的「大推理模型」(LRM)。

它能夠基于強化學習,通過CoT多步推理。并且,這種推理過程的代價,是高昂的。

來自ASU研究人員以此為契機,全面評估了當前LLM和新型LRM,在測試基準PlanBench上表現。

圖片

論文地址:https://arxiv.org/pdf/2409.13373

PlanBench是他們在22年提出,評估大模型規劃能力的測試基準。

在最新測試中,研究人員發現,o1-preview表現出色,大幅領先其他模型,但也未完全通過PlanBench基準測試。

其他LLM,在Mystery Blocksworld上的性能都不過5%。在基準上的結果曲線,和X軸幾乎融合。

足見,這些大模型的規劃能力,非常地弱。

圖片

不過,作者指出,規劃推理越長,o1-preview的準確率便會低于25%。

另外一個值得注意的點是,即便o1-preview超越了多數近似檢索的普通LLM,成為一種近似「推理器」。

但是,這種推理成本高達42美元/100個實例。

圖片

總而言之,o1在推理規劃方面開辟了新天地,但仍舊不是終極AI大腦。

最先進LLM,依然無法規劃

作者認為,o1模型以往LLM很大不同在于,前者被訓練成為近似「推理器」,而后者粗略視為「檢索器」。

由此,o1發布之后,研究人員對其與普通的LLM進行了區分,并將o1稱為「大推理模型」。

而要評估新模型的能力,以及局限性,還需要新的工具和評估方法。

PlanBench是在2022年GPT-3發布不久之后,亮相arXiv。此后,作者也在一個特定子集上(包含600個3-5 block問題的靜態數據集),重新測試模型。

盡管相繼出現的LLM參數規模越來越大,算力成本越來越高,但它們在簡單的規劃問題上,依舊無法實現飽和。

而且,多項研究中的改進并不穩健,可推廣力沒有那么高。

因此,PlanBench可以作為LLM和LRM在推理規劃任務上,是否取得進步的一個衡量標準。

不過需要注意的是,這種測試只能作為性能的上限,尤其局限于靜態測試集。

如下表1中,展示了當前大模型在600個3-5 Blocksworld靜態問題測試集,以及600個語義相同但語法混淆的實例Mystery Blocksworld中的結果。

在這些模型中,Llama 3.1 405B在常規Blocksworld上,取得了最佳性能62.6%。

然而,盡管本質問題相同,許多模型在Mystery Blocksworld上,性能大打折扣幾乎潰敗。

沒有一個模型,在PlanBench測試集中,達到5%的性能。

圖片

這是因為,LLM非常擅長提供等效表征之間的轉換。

因此,大模型在Blocksworld未混淆語義語法的問題上,性能更高。這也預示著,如果LLM能夠組合推理操作,明確提供從Mystery Blocksworld到Blocksworld表征翻譯,或許LLM在此的性能差距應該會大幅縮小。

通過重寫提示,研究人員發現,性能僅是提高了很小一部分—— GPT-4達到了10%。

圖片

作者還發現,與之前結果相反,單樣本提示(one-shot)相較于零樣本,并沒有顯著改善模型性能。

事實上,在許多模型中,one-shot效果似乎要差得多!

這一點,在對Llama系列模型的測試中,最為明顯。

順便提一句,在起初基準迭代中,研究人員并沒有考慮效率問題,因為普通LLM生成某些輸出,所需時間只取決于輸出長度,與實例的語義內容、難度無關。

然而,LRM會根據輸入內容,自適應改變每個實例所需的時間和成本,因此衡量計算效率變得尤為重要。

對此,ASU團隊計算了不同模型的提示成本,如下表4所示。

看得出,100個實例,o1-preview推理的代價最高,為42.12美金。

圖片

接下來,就到了評估o1在PlanBench基準上的能力了。

從近似檢索到近似推理

很多研究者都曾認為,通過近似檢索來生成輸出的「標準」自回歸LLM,盡管能夠在一系列系統1(快速、直覺性思考)任務中有著優異的表現,但不太可能具備更類似于系統2(慢速、分析性思考)的近似推理能力,而這種能力對于規劃任務來說至關重要。

如今,OpenAI試圖在o1上以不同的方式為底層LLM增添類似系統2的能力。

根據研究人員的推測,o1將底層LLM(很可能是經過修改的GPT-4o)與一個經過強化學習訓練的系統相結合,該系統引導思維鏈推理軌跡的創建、整理和最終選擇。

由此可知,o1與其他LLM存在兩個主要區別:

第一,新增了一個額外的強化學習預訓練階段(可能是從大量合成數據中學習不同思維鏈的q值);

第二,采用了一個新的自適應擴展推理程序(可能是通過類似rollout的方式進一步細化學習到的q值,然后再選擇特定的思維鏈)。

不管怎樣,從已知的細節來看,這個模型在本質上與之前的LLM有根本的差異。

在原始測試集上評估LRM

在需要2到16步計劃來解決的原始Blocksworld測試上,o1實現了高達97.8%的正確率。在Mystery Blocksworld上,也有著52.8%的正確率。

更進一步,研究人員通過完全隨機的字符串生成了新的混淆,并以此得到了難度更高的Randomized Mystery Blocksworld。

在這個測試中,o1仍能答對37.3%的問題——與那些一題都答不上來的LLM形成了鮮明對比。

圖片

擴大問題規模

LLM的思維鏈提示是非常脆弱的,很難隨著問題規模的增大而穩健地擴展,而且不能誘導出通用的算法程序跟隨。

為此,研究人員構建了一組有著110個實例的Blocksworld測試。其中,block的數量從6到20個不等,需要20到40步計劃才能完成。

在不做任何混淆處理的情況下,o1-preview僅僅達到了23.63%的準確率,而且大部分都是來自于那些需要少于28步的問題。

可見,模型的性能還遠未達到穩健的程度。

圖片

不可解的實例

一直以來,LLM都難以判斷一個問題是否有解,而OpenAI則聲稱o1已經能夠進行準確地識別了。

為了系統地測試這一點,研究人員修改了原始測試集中的100個實例——通過在每個實例的目標狀態中添加一個on(x,y)類型的連接詞,使目標變得不可滿足。

結果顯示,在Blocksworld中,o1只正確且明確地識別出了27%的實例是不可解的。

在19%的情況下,模型會返回一個點或某種「[empty plan]」標記,但沒有對可解性做出任何解釋或說明。這是不正確的,因為「empty plan」只有在目標已經滿足的情況下才是正確答案。

在剩余的54%的情況下,模型生成了一個「完整」的計劃。顯然,這是不可能也是不正確的。

在Randomized Mystery Blocksworld中,結果更糟:

- 16%的情況正確識別出了問題不可解

- 5%的情況返回了「empty plan」

- 79%的情況給出了一個不可能或不滿足目標的計劃

可見,不可解實例仍然是LRM的一個問題。

不僅如此,這種識別能力也是有代價的——o1有時會錯誤地聲稱可解的問題是不可解的(假陰性)。

在Randomized Mystery Blocksworld中,模型的假陰性率達到了11.5%。

圖片

準確性和成本的權衡與保證

隨著LRM在規劃任務上取得更好的性能,評估也必須明確考慮,選擇通用模型而非成熟專門系統來帶的利弊。

雖然o1-preview準確性超越LLM,但缺乏的是正確性保證。

而且,目前尚不清楚它是否具備成本效益。

與之前模型不同的是,o1 API每次調用價格還包括基于使用「推理token」數量附加費用,并按照最高輸出token計費。(這些token是在推理過程中生成,并沒有直觀展示出來)

圖片

這也就意味著,o1 API費用用戶是無法控制的。

作者表示,o1推出不到一周,他們在PlanBench基準上測試模型,竟花費了1897.55大洋(約13300元)!

而且,能夠訪問的o1-preview似乎在每個問題上,使用的推理token數量受到限制。

這一點也可以從圖2的平穩變化中,可以看出。(包括如下散點圖)

圖片

圖片

這就存在一種認為降低總成本,最高性能的因素。

如果完整版o1取消這一限制后,可能會提高整體準確性,但隨之帶來的高昂推理成本更加難以預測(只會更加離譜)。

o1-mini雖然更具性價比,但總體性能還是較差。

由此,o1模型在成本、推理時間、保證、性能權衡上,僅是一種粗粒度的評估選擇。

經典的規劃器Fast Downward在數據集上,能夠以更少時間、計算、成本,實現了100%準確率,同時能夠保證答案準確度。

而在PC上運行Fast Downward基本上不需要花什么錢,平均每個實例耗時0.265秒。這要比如上表2中,o1平均時間快了幾個數量級。

它通常也是可預測的,而且能直接擴展到更難的實例。

普通LLM非常擅長在不同格式之間轉換問題,并可以結合Fast Downward一起使用,成本還僅是LRM一小部分。

對于沒有簡單PDDL域和實例規范的問題,LLM-Modulo系統可能是一種更安全、更便宜的方法。

即將一個較小、較快的LLM與一個可靠的驗證器循環運行,使得組合系統只輸出保證正確的解決方案。

后面這兩種方法提供正確性保證,卻在o1這樣的LRM中嚴重缺失。

如果一個通過那個推理AI非常自信地制定錯誤計劃,就不能部署在安全關鍵和非遍歷領域。

當前,o1還是一個完全黑盒系統,要比之前模型更甚。OpenAI不僅保密其架構和推理過程,還警告禁止想要了解內部機制的用戶。

這也就讓o1的可解釋性變為不可能,也降低了整個系統信任度。

o1的創造性解釋

值得一提的是,當模型給出錯誤答案時,它有時還會為其決定提供一個富有創意但毫無意義的解釋。

換句話說就是,o1從產生幻覺變成了PUA……

在一個案例中,它認為一個無法解決的問題是可以解決的,因為一個目標條件雖然在最終狀態中不存在,但在執行過程中的某個時點是真的,因此應該繼續計算。

在另一個案例中,它宣稱on(a,c)是真的,因為正如「on(a,c)」的字面意思,a在b上,而b在c上,因此a在c的「上方」。

結論

總結而言,LLM在原始Blocksworld測試集上的表現,會隨著時間的推移有所提升。

其中,表現最佳的是Llama 3.1 405B——準確率高達62.5%。

然而,這些模型在同一領域的混淆版本上的糟糕表現,暴露了它們「近似檢索」的本質。

相比之下,新的LRM,也就是o1,不僅幾乎接近完美解決了原始Blockworld測試集,而且在混淆版本上首次取得了進展。

受此鼓舞,研究人員又評估了o1在更長問題和無解問題上的表現。

但結果顯示,之前這些準確率的提升既不具有泛化性,也不具有穩健性。

最后,團隊希望這份研究報告能夠很好地展示LLM和LRM的規劃能力,并為如何切實評估它們提供有用的建議。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-09-24 11:01:03

2024-09-13 06:32:25

2024-11-07 15:40:00

2025-02-03 00:00:01

Ai2o1LLM

2024-09-29 13:07:16

2024-12-09 11:06:31

2025-01-08 13:08:55

2025-06-27 03:00:00

生成式人工智能AI人工智能

2024-09-25 09:30:16

2024-11-21 14:00:00

模型AI

2024-11-25 15:50:00

模型訓練

2024-11-25 08:30:00

2024-10-10 13:01:43

2024-09-23 09:20:00

2024-11-18 14:00:00

模型AI

2024-11-07 22:59:36

2024-12-09 08:00:00

AI大模型人工智能

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-01-23 14:53:15

2025-01-23 10:45:52

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩1区 | 毛片a级毛片免费播放100 | 一区二区av| 99精品久久99久久久久 | 国产日韩一区二区 | 久久久久久久久久久久久9999 | 国产精品美女久久久久aⅴ国产馆 | 欧美激情一区二区三区 | 久久最新精品 | 亚洲精品在线观看视频 | 在线免费观看亚洲 | 91精品国产综合久久婷婷香蕉 | 亚洲视频第一页 | 精品欧美视频 | 亚洲精品久久久一区二区三区 | 成人精品一区二区三区四区 | 欧美1区| 亚洲一区 | 91精品久久久久久久久久入口 | 欧美精品福利 | 成人久久久| 少妇诱惑av | 99在线免费观看视频 | 精品国产网 | 蜜臀网 | 91中文视频 | 久久久国产精品一区 | 亚洲a毛片| 在线午夜 | 毛片在线免费播放 | 美女在线视频一区二区三区 | 亚洲黄色av | 欧美福利精品 | 天天操天天操 | 亚洲欧美视频 | 毛片国产 | 香蕉大人久久国产成人av | 成人国产精品久久久 | 亚洲国产91 | 日本色婷婷 | 91精品国产91久久久久久最新 |