成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

LLM CoT的工作原理

發布于 2024-5-17 10:47

瀏覽

0收藏

?思維鏈（CoT：Chain of Thought）常常作為增強大模型推理能力的利器，

但大模型推理能力的提升多大程度上來自人為任務拆解？還是額外提示的Token激發了背后更強大的計算？

LLM CoT的工作原理-AI.x社區

“讓我們逐步思考：Transformer語言模型中的隱藏計算”[文獻1] 發現了一個有趣的現象，

通過在思維鏈中添加無意義的中間Token（例如“……”）可以解決無中間Token時沒法完成的較難的兩個算法任務。

文獻的結論是：添加額外Token就可以增強大模型推理，甚至可以與Token本身內容選擇無關。

LLM CoT的工作原理-AI.x社區

網友本就驚訝于著名提示詞“讓我們一步一步地想”（Let‘s think step by step）的神奇效果，

對本論文描述的“AI不依賴人類經驗的token內容，隱藏自行推理”，就更覺得魔幻且擔憂。

不過筆者發現，斯坦福谷歌等學者的預印論文，“思維鏈使Transformer能解決內在串行的問題”[文獻2]，可以非常直觀的用來解釋文獻1中揭示的現象！

LLM CoT的工作原理-AI.x社區

文獻2采用了類似文獻1中的電路復雜度分析的方法，將Transformer看作一定深度的復雜電路，分析其可以解決的問題的復雜度。

電路復雜度分析用 TC0 表示可以通過一個固定深度的電路解決的計算問題，而足夠長的思維鏈，能將Transformer的表達能力擴展到TC0之外。

文獻結論：“從概念上講，CoT賦予模型執行本質上串行計算的能力，這是Transformer所缺乏的，尤其是在深度較低的情況下。”

意思是文獻1描述的“AI不依賴人類經驗的token內容隱藏自行推理”，既不魔幻也不可怕，甚至可以說是Transformer內在缺陷導致的。

LLM CoT的工作原理-AI.x社區

文獻進一步論證，通過T步CoT，使用固定位精度和O(logn) 嵌入大小的固定深度Transformer可以解決任何可由大小為T的布爾電路解決的問題。

實證上，CoT的作用是，提高了低深度Transformer在內在串行問題上的表達能力。

LLM CoT的工作原理-AI.x社區

筆者理解是，CoT 其實是引導了Transformer避免簡單并行推理，而是通過串行的方式去一步步推理。

原理很直觀，類似有向無環圖DAG的處理，例如SQL數據查詢，并不是所有的Access Plan DAG 中的算子都適合并行，有許多并行阻斷算子 parallel blocker, 例如全局sort。

這是Transformer特有的現象嗎？Mamba之類的潛力架構是否可以規避這個問題，優化zero-shot推理呢？

LLM CoT的工作原理-AI.x社區

結合筆者的大模型數理原理的認知框架，可以這么看：LLM在范疇中采樣，變分推理時，

串行處理，引入中間信息，加深LLM在范疇對象和態射中遍歷的深度，逐步調整采樣概率分布，實現更精確的推理；

并行處理，增加填充信息，在寬度上有機會影響采樣的概率分布，進而影響最后的推理效果。

文獻1 Let's Think Dot by Dot: Hidden Computation in Transformer Language Models https://arxiv.org/abs/2404.15758

文獻2 Chain of Thought Empowers Transformers to Solve Inherently Serial Problems https://arxiv.org/abs/2402.12875

本文轉載自??清熙??，作者：王慶法 ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

Agent四大范式 | 綜述：全面理解Agent工作原理

大語言模型論文跟蹤 ? 7731瀏覽 ? 0回復
AI Agent：人類工作范式的顛覆者還是人機協作新范式？

Baihai_IDP ? 4979瀏覽 ? 0回復
Meta AI的首席執行官LeCun：不要從事LLM工作

51CTO技術棧 ? 2539瀏覽 ? 0回復
MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作

amei2000go ? 9552瀏覽 ? 0回復
深入剖析時序Prophet模型：工作原理與源碼解析

卓勝微wjp ? 3738瀏覽 ? 0回復
谷歌開源Gemma Scope，更好解釋大模型工作原理

Aceryt ? 3340瀏覽 ? 0回復
深度學習中生成模型的工作原理：解析用于數據增強的生成模型

51CTO內容精選 ? 3965瀏覽 ? 0回復
多模態大模型的實現原理，以及技術難點

AI探索時代 ? 5555瀏覽 ? 0回復
LLM合集：港大利用GPT-4o生成QA對，打造大規模多模態視頻思維鏈（COT）數據集

AIPaperDaily ? 3159瀏覽 ? 0回復
LLM推薦系統時代來了？2024大廠頂會工作總結

海因斯DK ? 3875瀏覽 ? 0回復
Word2vec算法原理詳解

人工智能訓練營 ? 2415瀏覽 ? 0回復
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 5631瀏覽 ? 0回復
詳解AI代理的內部工作機理

51CTO內容精選 ? 2203瀏覽 ? 0回復
什么是工作流？如何創建和編排AI智能體工作流

數字化助推器 ? 6192瀏覽 ? 0回復
OpenAI發布CoT監控，阻止大模型惡意行為

Aceryt ? 1873瀏覽 ? 0回復
ChatGPT | Prompt中的CoT和ReAct

周末程序猿 ? 1518瀏覽 ? 0回復
Dify從入門到高階系列一：詳解各種工作流節點，如何降低LLM開發門檻？

AI博物院 ? 6164瀏覽 ? 1回復
AI Agents-5 | AI工作流與代理的深度剖析：從原理到實戰應用

Halo咯咯 ? 1882瀏覽 ? 0回復
【一文了解】大模型的思維鏈技術（CoT）

碼農隨心筆記 ? 1892瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Nature: 精度不受熱力學第二定律限制 2天前發布
Nvidia的具身推理模型還缺什么？ 2025-05-29 07:20:59發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： Nature：最大擴散強化學習

下一篇： Nature：進化會重復發生

社區精華內容

目錄

主站蜘蛛池模板：成人国产精品久久 | 欧美网站一区 | 国产一区二区日韩 | 天堂中文av | 色免费在线视频 | 九九精品久久久 | 欧美一区二区激情三区 | 国产精品久久久久久久久污网站 | 欧美精品一区二区在线观看 | 久久综合久色欧美综合狠狠 | 成人老司机 | 成年免费大片黄在线观看一级 | 国产精品久久久久久久久久妇女 | 亚洲一区二区三区 | 91久久久久久久久久久 | 亚洲精品一区二区 | 成年人黄色小视频 | 国产黄色大片网站 | 精品久久久久久 | 国产成人一区二区三区 | 日本一道本视频 | 日韩精品久久一区 | 91色视频在线观看 | 一区二区三区免费 | 精品在线播放 | 国产精品久久久久久久毛片 | 91成人精品视频 | 久久精品色视频 | 久久久久久久久久久国产 | 免费簧片视频 | 国产精品九九九 | 99一级毛片| 亚洲国产精品视频 | 天天天操操操 | 久久噜噜噜精品国产亚洲综合 | 免费在线一区二区三区 | 亚洲福利网 | 999久久久 | 午夜视频在线播放 | 韩日视频在线观看 | 久久久久久国产 |