成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

現實再次給大模型帶來沉重打擊

發布于 2024-10-12 14:12
瀏覽
0收藏

論文筆記分享,標題:LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

一個偏實驗性的文章,這篇文章的主要的結論是。LLMs不擅長規劃,LRMs看似有希望,但是希望不大

當故事看把~

規劃簡單定義就是說,在面對一些較復雜的開放式問題時,需要進行一些搜索以確定最佳的解決方案。這個過程,不僅僅是思考可行的方向,還需要將問題分解成更簡單的任務。

當使用目前最牛的LLM來測試這些能力時候,如下圖,對于人來說相對容易解決:

現實再次給大模型帶來沉重打擊-AI.x社區

但是結果比較糟糕,Mystery Blocks world 基準結果, ChatGPT、Claude、Gemini 和 Llama 的正確問題率為 0% 。

現實再次給大模型帶來沉重打擊-AI.x社區

Openai O1目前通過更多的思考,天生就是為了這些復雜的任務而生的,當在相同的數據集上測試, o1 的結果初看確實很驚艷,使第一個簡單的數據集達到97.8% 準確率,幾乎飽和了。

但是,仔細分析之后,一旦增加計劃的步驟數,準確曲線很快就崩潰了,當計劃需要 14 個或更多步驟時,準確率會回到 0% 。

現實再次給大模型帶來沉重打擊-AI.x社區

當然,必須考慮到成本問題,生成成本比prompt編碼成本高很多。所以相比于LLM模型,LRM模型的推理成本達到了恐怖的100到1000倍

現實再次給大模型帶來沉重打擊-AI.x社區

另一方面,模型很容易自嗨看下圖,要完成一個需要 20 步的計劃,模型需要生成 6000 個token。比實際的單詞數量超出了1500+~。

現實再次給大模型帶來沉重打擊-AI.x社區

成本與效果的權衡,O1真的值得么?2011年就出現的AI算法,FastForward,在這個評測中可以達到100%的準確率,赤裸裸的貼臉開大。并且,FastDownward 運行速度快且成本便宜。比 o1 型號的成本效益高出幾個數量級,并且至少具有三倍的性能。

現實再次給大模型帶來沉重打擊-AI.x社區

最后,在評估人工智能是否可以承認一個計劃,自身是否是無法解決時。o1 表現出,沒有能力來評估這個事情。o1-preview 僅在 16% 的情況下將問題識別為無法解決。在很多例子中,模型產生了完全不可行且愚蠢的結果,同時又很能bb。

現實再次給大模型帶來沉重打擊-AI.x社區

本文轉載自 ??NLP前沿??,作者: 熱愛AI

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 毛片一区二区三区 | 免费视频一区二区 | 亚洲精品一二三区 | 久久国 | 欧美 日本 国产 | 天天插天天干 | 国产亚洲一区二区三区在线观看 | 国产欧美精品一区二区 | 国产视频福利一区 | 欧美理论片在线观看 | 精品在线一区 | 另类专区亚洲 | 日本不卡一区二区三区在线观看 | 久久不卡视频 | 99热播放| 午夜a√ | 蜜臀久久 | 国产一区二区三区久久久久久久久 | 日韩一区欧美一区 | 日本一区二区在线视频 | av在线成人 | 九九免费视频 | 在线成人免费视频 | www.日本国产 | 亚洲国产福利视频 | 电影午夜精品一区二区三区 | 伊色综合久久之综合久久 | 国产91精品久久久久久久网曝门 | 中文字幕在线网 | 日韩在线观看一区 | 91精品国产一区二区三区 | 国产精品久久久99 | 视频一二区 | 精品一区二区在线观看 | 99免费在线观看 | 在线欧美 | 欧美人妖网站 | 午夜欧美一区二区三区在线播放 | 九九热精品视频 | 国产精产国品一二三产区视频 | 久久精品二区亚洲w码 |