現實再次給大模型帶來沉重打擊
論文筆記分享,標題:LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH
一個偏實驗性的文章,這篇文章的主要的結論是。LLMs不擅長規劃,LRMs看似有希望,但是希望不大
當故事看把~
規劃簡單定義就是說,在面對一些較復雜的開放式問題時,需要進行一些搜索以確定最佳的解決方案。這個過程,不僅僅是思考可行的方向,還需要將問題分解成更簡單的任務。
當使用目前最牛的LLM來測試這些能力時候,如下圖,對于人來說相對容易解決:
但是結果比較糟糕,Mystery Blocks world 基準結果, ChatGPT、Claude、Gemini 和 Llama 的正確問題率為 0% 。
Openai O1目前通過更多的思考,天生就是為了這些復雜的任務而生的,當在相同的數據集上測試, o1 的結果初看確實很驚艷,使第一個簡單的數據集達到97.8% 準確率,幾乎飽和了。
但是,仔細分析之后,一旦增加計劃的步驟數,準確曲線很快就崩潰了,當計劃需要 14 個或更多步驟時,準確率會回到 0% 。
當然,必須考慮到成本問題,生成成本比prompt編碼成本高很多。所以相比于LLM模型,LRM模型的推理成本達到了恐怖的100到1000倍
另一方面,模型很容易自嗨看下圖,要完成一個需要 20 步的計劃,模型需要生成 6000 個token。比實際的單詞數量超出了1500+~。
成本與效果的權衡,O1真的值得么?2011年就出現的AI算法,FastForward,在這個評測中可以達到100%的準確率,赤裸裸的貼臉開大。并且,FastDownward 運行速度快且成本便宜。比 o1 型號的成本效益高出幾個數量級,并且至少具有三倍的性能。
最后,在評估人工智能是否可以承認一個計劃,自身是否是無法解決時。o1 表現出,沒有能力來評估這個事情。o1-preview 僅在 16% 的情況下將問題識別為無法解決。在很多例子中,模型產生了完全不可行且愚蠢的結果,同時又很能bb。
本文轉載自 ??NLP前沿??,作者: 熱愛AI
