成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

推理模型的必經(jīng)之路-自適應推理

發(fā)布于 2025-6-3 06:41

瀏覽

0收藏

自適應推理模型的核心就是讓模型自己根據(jù)用戶問題的來判斷是否進行推理預測。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

Arm存在三種格式：直接回答、短CoT或代碼、長CoT，同時引入Ada-GRPO解決傳統(tǒng) GRPO 中的格式崩潰問題。

除了自適應模式，Arm還支持另外兩種模式；

指令引導模式，用戶明確強制選擇某一種指定推理格式
共識引導模式，聚合直接回答、短CoT或代碼三種格式的輸出，當答案一致時，直接返回，否則認為任務較復雜，切換到Long CoT推理模式。

模型的訓練分為兩個階段，SFT和Ada-GRPO。

第一階段：SFT 推理格式理解

SFT作為冷啟動，讓模型可以用各種推理格式解決問題。

直接答案：直接給出答案，不進行任何推理鏈

<ANSWER>answer</ANSWER>

短CoT：先進行簡短的推理，然后給出答案

<COT>cot</COT><ANSWER>answer</ANSWER>

代碼：采用基于代碼的推理方式，格式：

<CODE>code</CODE><ANSWER>answer</ANSWER>

長CoT：涉及更詳細、迭代的推理過程，例如自我反思和替代方案生成等

<LONG_COT>cot</LONG_COT><ANSWER>answer</ANSWER>

模型訓練采用LlamaFactory框架，lora訓練，批次為128，學習率為 2e-4，采用余弦學習率調度器，6個epoch，10%步數(shù)預熱，訓練策略 ZeRO-3。

第二階段：Ada-GRPO訓練格式選擇

SFT 之后，模型會了使用多種推理格式進行回復，但無法根據(jù)任務自適應切換的能力，因此提出了自適應 GRPO，通過格式多樣性獎勵機制，讓模型能夠根據(jù)任務難度動態(tài)地選擇合適的推理格式。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

最后，通過最大化以下目標函數(shù)來優(yōu)化模型：

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

結果

基座模型采用Qwen2.5-Base-3B、7B、14B模型。

SFT數(shù)據(jù)集，使用AQuA-Rat，由于僅存在直接答案和簡短CoT回答，利用GPT-4o和 DeepSeek-R1分別補充代碼和長CoT格式，過濾錯誤答案后，保留 3K 個多選題和 7.8K 個開放問題。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

GPT-4o補充代碼

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

DeepSeek-R1補充長CoT

RL數(shù)據(jù)集，從簡單的常識推理到復雜的數(shù)學推理，包括 CommonsenseQA、GSM8K 和 MATH，總共包含 19.8K 條。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

如下表所示，ARM的平均效果下降不到1%，但節(jié)省了超過30%的token。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

同時，SFT只能讓模型學會格式，但沒辦法根據(jù)任務選擇合適的格式，而GRPO 確實提高了推理能力，但傾向于依賴長CoT來解決所有任務，如下圖所示。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

比較自適應模式、指令引導模式、共識引導模式如下表所示，共識引導可以提高整體效果，但消耗token也更多。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

驗證，自適應模式中格式的選擇不是隨機選擇，與指令引導模式上每種單獨模式比較，效果均好。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

比較Ada-GRPO和GRPO，如下圖所示，在早期訓練步驟中Ada-GRPO由于選擇了次優(yōu)的推理格式，最初在準確率上落后于GRPO，但最終都收斂到相似的最終準確率。而Ada-GRPO最終將平均響應長度減少到大約GRPO的一半。

推理模型的必經(jīng)之路-自適應推理-AI.x社區(qū)

最后，想說，自適應推理應該推理模型的必經(jīng)之路，同時支持強制選擇推理模式也要支持，應用上，可以前置的就選擇強制指令，無法判斷的再讓大模型自己自適應。

本文轉載自??NLP工作站??，作者：NLP工作站

標簽

自適應推理

已于2025-6-3 11:34:36修改

贊

收藏

回復

舉報

回復

相關推薦

大模型提示學習樣本量有玄機，自適應調節(jié)方法好

pangguiyu ? 3558瀏覽 ? 0回復
大模型的條件推理和模態(tài)推理

xuxiangda ? 3382瀏覽 ? 0回復
ECCV 2024 | 探索離散Token視覺生成中的自適應推理策略

輕薄滴假象 ? 2254瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內容精選 ? 2510瀏覽 ? 0回復
關于自適應模態(tài)分解方法

步驚云_32 ? 2826瀏覽 ? 0回復
NeurIPS'24 基于自適應多尺度超圖Transfromer的時間序列預測方法

海因斯DK ? 3804瀏覽 ? 0回復
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 2845瀏覽 ? 0回復
大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 4022瀏覽 ? 0回復
清華&人大：search-o1 讓推理模型具有主動能力

鴻煊的學習筆記 ? 2131瀏覽 ? 0回復
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風云2002_1 ? 1.2w瀏覽 ? 0回復
如何利用 DeepSeek-R1 本地部署強大的推理模型：從 ChatGPT 風格界面到 API 集成

Halo咯咯 ? 3458瀏覽 ? 0回復
GoRA: 基于梯度驅動的自適應低秩微調方法

頓數(shù)AI ? 2482瀏覽 ? 0回復
推理模型+Multi-Agent，可能就是Deep Research的全貌！

探索AGI ? 2449瀏覽 ? 0回復
新的推理模型編碼能力爆表！是的，那個王，他又回來了！

老蛀蟲 ? 2372瀏覽 ? 0回復
白嫖資源訓練 DeepSeek R1 推理模型

AIGC前沿技術追蹤 ? 3887瀏覽 ? 0回復
COSMOS：結合特征子空間分解的混合自適應優(yōu)化器用于大型語言模型的內存高效訓練

頓數(shù)AI ? 2527瀏覽 ? 0回復
訓練自己的推理模型僅需七個步驟

51CTO內容精選 ? 2203瀏覽 ? 0回復
理解什么是推理模型，看懂這篇就夠了

AIGC新知 ? 2010瀏覽 ? 0回復
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 1093瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法 1天前發(fā)布
遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！ 2025-06-13 07:17:37發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：通義千問又開源啦！WorldPM-世界偏好模型來了！

下一篇：遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！

社區(qū)精華內容

目錄

主站蜘蛛池模板：国产精品久久久久久久久 | 国产欧美日韩一区二区三区在线观看 | 亚洲性综合网 | 亚洲va在线va天堂va狼色在线 | 日韩一级 | 日本亚洲欧美 | 亚洲精品久久久久久一区二区 | 国产日韩欧美 | 91九色porny首页最多播放 | 欧美日韩激情 | 国产成人精品午夜 | 蜜月va乱码一区二区三区 | 久久99蜜桃综合影院免费观看 | 欧美精品免费观看二区 | 亚洲精品黑人 | 国产精品永久免费视频 | 国产精品综合一区二区 | 国产色 | 成人日b视频 | 三区在线观看 | 亚洲精品一区二区三区中文字幕 | 亚洲视频一区 | 91久久久久 | 成人午夜毛片 | 五月香婷婷 | 欧美一页 | 永久www成人看片 | 毛片免费观看视频 | 亚洲欧美日韩久久久 | 国产精品久久久久久吹潮 | 国产98色在线 | 日韩 | 久久综合av | 日韩精品一区二区三区视频播放 | 国产精品毛片一区二区在线看 | 色网站视频 | 亚洲视频网 | 亚洲成人精品在线观看 | 欧美激情国产日韩精品一区18 | 日韩一区二区三区在线观看 | 欧美激情一区 | 91精品国产综合久久久密闭 |