成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="maas2"><acronym id="maas2"></acronym></center>

<code id="maas2"><xmp id="maas2"></xmp></code>

<code id="maas2"></code>

<button id="maas2"></button>

<rt id="maas2"></rt>

<bdo id="maas2"><source id="maas2"></source></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

現實再次給大模型帶來沉重打擊

發布于 2024-10-12 14:12

瀏覽

0收藏

論文筆記分享，標題：LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

一個偏實驗性的文章，這篇文章的主要的結論是。LLMs不擅長規劃，LRMs看似有希望，但是希望不大

當故事看把~

規劃簡單定義就是說，在面對一些較復雜的開放式問題時，需要進行一些搜索以確定最佳的解決方案。這個過程，不僅僅是思考可行的方向，還需要將問題分解成更簡單的任務。

當使用目前最牛的LLM來測試這些能力時候，如下圖，對于人來說相對容易解決：

現實再次給大模型帶來沉重打擊-AI.x社區

但是結果比較糟糕，Mystery Blocks world 基準結果， ChatGPT、Claude、Gemini 和 Llama 的正確問題率為 0% 。

現實再次給大模型帶來沉重打擊-AI.x社區

Openai O1目前通過更多的思考，天生就是為了這些復雜的任務而生的，當在相同的數據集上測試， o1 的結果初看確實很驚艷，使第一個簡單的數據集達到97.8% 準確率，幾乎飽和了。

但是，仔細分析之后，一旦增加計劃的步驟數，準確曲線很快就崩潰了，當計劃需要 14 個或更多步驟時，準確率會回到 0% 。

現實再次給大模型帶來沉重打擊-AI.x社區

當然，必須考慮到成本問題，生成成本比prompt編碼成本高很多。所以相比于LLM模型，LRM模型的推理成本達到了恐怖的100到1000倍

現實再次給大模型帶來沉重打擊-AI.x社區

另一方面，模型很容易自嗨看下圖，要完成一個需要 20 步的計劃，模型需要生成 6000 個token。比實際的單詞數量超出了1500+~。

現實再次給大模型帶來沉重打擊-AI.x社區

成本與效果的權衡，O1真的值得么？2011年就出現的AI算法，FastForward，在這個評測中可以達到100%的準確率，赤裸裸的貼臉開大。并且，FastDownward 運行速度快且成本便宜。比 o1 型號的成本效益高出幾個數量級，并且至少具有三倍的性能。

現實再次給大模型帶來沉重打擊-AI.x社區

最后，在評估人工智能是否可以承認一個計劃，自身是否是無法解決時。o1 表現出，沒有能力來評估這個事情。o1-preview 僅在 16% 的情況下將問題識別為無法解決。在很多例子中，模型產生了完全不可行且愚蠢的結果，同時又很能bb。

現實再次給大模型帶來沉重打擊-AI.x社區

本文轉載自 ??NLP前沿??，作者：熱愛AI

標簽

贊

收藏

回復

舉報

回復

相關推薦

清華給海內外知名大模型做了場綜合能力評測

輕薄滴假象 ? 3136瀏覽 ? 0回復
谷歌多模態大模型ScreenAI：帶來人機界面交互新方式

魚蟲子 ? 3892瀏覽 ? 0回復
用神經架構搜索給LLM瘦身，模型變小，準確度有時反而更高

輕薄滴假象 ? 2352瀏覽 ? 0回復
3D語言模型的新突破：解鎖虛擬現實中的'幻覺'問題

AI論文解讀 ? 3001瀏覽 ? 0回復
再次提升RAG性能：兩種高效的Rerank模型實踐指南

AIGC觀察者 ? 2.2w瀏覽 ? 0回復
RAPTOR 檢索樹再次進一步提升RAG性能的設計思路

AIGC觀察者 ? 4220瀏覽 ? 0回復
給 ?大模型初學者? 的 LLaMA 3 核心技術剖析

Baihai_IDP ? 3252瀏覽 ? 0回復
3D語言模型的新突破：解鎖虛擬現實中的'幻覺'問題

AI論文解讀 ? 2541瀏覽 ? 0回復
開源大模型如何治理？斯坦福基礎模型研究中心給您支招

AIGC最前線 ? 3275瀏覽 ? 0回復
一文讀懂OpenGVLab帶來的最新視覺預訓練框架

魯班模錘1 ? 2432瀏覽 ? 0回復
多模態RAG帶來工業級革命

NLP前沿1 ? 2579瀏覽 ? 0回復
超越SDEdit等七大SOTA，免訓練多模態圖像編輯里程碑：HeadRouter帶來精準語義調整

angel ? 2484瀏覽 ? 0回復
關于兩次大模型文本生成的嘗試，以及由此帶來的思考

AI探索時代 ? 2235瀏覽 ? 0回復
谷歌再次反打OpenAI！

51CTO技術棧 ? 2332瀏覽 ? 0回復
盤點2024“理想豐滿現實骨感”的大模型們！

51CTO技術棧 ? 2605瀏覽 ? 0回復
外國專家解讀DeepSeek：預算有限，如何復制R1推理模型？純強化學習不現實！

51CTO技術棧 ? 1918瀏覽 ? 0回復
DeepSeek太給力了！自家的大模型秘方開源到底！國產大模型雄起

51CTO技術棧 ? 2799瀏覽 ? 0回復
DeepSeek開源新版V3，再次震驚國外

Aceryt ? 1644瀏覽 ? 0回復
除了Rag和Train有沒有其他方式給模型注入知識？

熵減AI ? 1677瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

阿里開源VRAG-RL：定義下一代檢索增強生成 2025-06-16 07:56:18發布
RAG應用要如何吃到大模型長上下文的紅利？-LongRAG 2025-06-04 06:19:46發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：卷瘋了！開源社區離Openai o1越來越近~

下一篇： Entropix，終于找到了真正解決幻覺的方法了

社區精華內容

目錄

主站蜘蛛池模板：毛片一区二区三区 | 免费视频一区二区 | 亚洲精品一二三区 | 久久国 | 欧美日本国产 | 天天插天天干 | 国产亚洲一区二区三区在线观看 | 国产欧美精品一区二区 | 国产视频福利一区 | 欧美理论片在线观看 | 精品在线一区 | 另类专区亚洲 | 日本不卡一区二区三区在线观看 | 久久不卡视频 | 99热播放| 午夜a√ | 蜜臀久久 | 国产一区二区三区久久久久久久久 | 日韩一区欧美一区 | 日本一区二区在线视频 | av在线成人 | 九九免费视频 | 在线成人免费视频 | www.日本国产 | 亚洲国产福利视频 | 电影午夜精品一区二区三区 | 伊色综合久久之综合久久 | 国产91精品久久久久久久网曝门 | 中文字幕在线网 | 日韩在线观看一区 | 91精品国产一区二区三区 | 国产精品久久久99 | 视频一二区 | 精品一区二区在线观看 | 99免费在线观看 | 在线欧美 | 欧美人妖网站 | 午夜欧美一区二区三区在线播放 | 九九热精品视频 | 国产精产国品一二三产区视频 | 久久精品二区亚洲w码 |

<noscript id="owo2u"><tr id="owo2u"></tr></noscript>

<code id="owo2u"><wbr id="owo2u"></wbr></code>

<code id="owo2u"><wbr id="owo2u"></wbr></code>

<button id="owo2u"></button>

<button id="owo2u"><input id="owo2u"></input></button>
<dl id="owo2u"></dl>

<button id="owo2u"><source id="owo2u"></source></button>