成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路 原創

發布于 2025-3-13 12:30
瀏覽
0收藏

剛開始琢磨使用DeepSeek-R1風格訓練多模態R1模型,就看到這個工作,本文一起看看,供參考。

先提出問題,僅靠 RL 是否足以激勵 MLLM 的推理能力?

結論:不能,因為如果 RL 能有效激勵推理能力,Vision-R1-Zero 應該表現出生成復雜 CoT 的能力,并在基準測試中提升準確率。如下圖D和E所示:

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

方法:從未經專門推理優化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)開始,直接應用 RL 訓練。使用與 Vision-R1 相同的獎勵函數,即硬格式結果獎勵函數(HFRRF):如果輸出格式正確且答案正確,獎勵為 1,否則為 0。訓練目標是激勵模型生成多模態 CoT,解決數學推理任務。

系統提示與獎勵格式和Deepseek相似:

  • 系統提示:

A conversation between User and
Assistant. ... first thinks about
the reasoning process ... provides
the user with the answer. The
reasoning process and answer are
enclosed within <think> </think> and
<answer> </answer> tags ...
  • 獎勵格式:

<think> </think><answer></answer>

方法架構

僅靠強化學習(RL)無法有效激勵多模態大型語言模型(MLLM)的推理能力,主要原因是缺乏高質量初始數據和優化策略

因此,可以知道Vision-R1 的目標是:

  • 生成高質量的多模態推理鏈(CoT)數據集,無需人工標注。
  • 通過 RL 優化模型,使其生成邏輯清晰、長度適中的 CoT,避免過度思考(Overthinking)。

基于此,Vision-R1 提出了一種兩階段方法,通過冷啟動初始化和漸進式 RL 訓練。

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

Vision-R1流程

1. 冷啟動初始化

冷啟動初始化是通過構建一個高質量的多模態鏈式推理(CoT)數據集來實現的。目的是為模型提供一個初始的、高質量的推理示例,以便在后續的強化學習過程中更好地學習和改進推理能力。

冷啟動初始化的核心在于如何從多模態數據中提取出高質量的推理過程。由于多模態大型語言模型(MLLMs)通常難以直接處理多模態輸入,提出了一種稱為“模態橋接”(Modality Bridging)的方法來實現這一目標。

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

整體數據生成流程

實現細節

步驟

作用

方法

1. 偽 CoT 生成

MLLM 處理圖像-文本對,生成初步推理步驟

使用 Qwen-2.5VL-72B

2. 詳細描述獲取

通過提示獲取支持回答問題的詳細圖像描述

提示模板見論文

3. CoT 提取與優化

DeepSeek-R1 提取并優化 CoT

DeepSeek-R1 見

4. 數據過濾

規則過濾確保數據質量

200K Vision-R1-cold 數據集

  • 偽CoT生成:首先,使用現有的多模態大型語言模型(MLLM)來生成“偽CoT”(Pseudo-CoT)。具體的,輸入一個圖像-問題-答案對和一個提示到一個MLLM中,模型會生成一個包含圖像描述和推理過程的文本。這個“偽CoT”不僅包含了圖像的描述,還嘗試進行初步的推理,但可能缺乏深度和復雜性。

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

通過帶有和不帶“偽CoT”的描述生成的CoT過程比較。

  • 文本描述生成:將生成的“偽CoT”與原始的圖像-問題對以及一個新的提示一起輸入到同一個MLLM中,以獲取更詳細的圖像描述。這一步驟的目的是通過MLLM的文本生成能力,將圖像中的視覺信息轉化為更詳細的文本描述,從而為后續的推理提供更多的上下文信息。
  • 推理生成:將經過文本化的圖像-問題對輸入到一個專門的推理大型語言模型(如DeepSeek-R1)中,以生成高質量的CoT推理過程。DeepSeek-R1能夠生成包含自然認知過程的推理過程,如質疑、反思和檢查等。
  • 數據過濾:從生成的CoT數據中保留那些最終答案與真實值一致的樣本。使用規則進行數據過濾,去除邏輯不一致的樣本,并替換一些詞匯以提高語義連貫性。

冷啟動數據源:

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

小結:冷啟動初始化的主要目的是為模型提供一個高質量的起點,使得模型在后續的強化學習過程中能夠更快地學習和改進其推理能力

2.漸進式思維抑制訓練(PTST)

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

為了解決冷啟動后的過度思考問題,Vision-R1 采用漸進式思維抑制訓練(PTST),通過 RL 進一步優化模型的推理能力。

  • 分組相對策略優化(GRPO):GRPO 是一種 RL 算法,通過分組類似狀態或動作來優化策略,提高學習效率。  詳細的可參考往期《??DeepSeek采用的GRPO算法數學原理及算法過程淺析??》
  • 硬格式結果獎勵函數(HFRRF):獎勵函數簡單:如果輸出格式正確且答案正確,則獎勵為 1,否則為 0。
  • 分階段訓練:訓練分為多個階段,逐步增加序列長度(如 4K、8K、16K 標記)和調整組大小(如 16、8、4)。

     a.每個階段訓練 100 步,使用 64 個 NVIDIA H800 80G GPU,約 2 天,使用 Verl 框架。

     b.與固定長度 16K、300 步訓練的 Vision-R1-Long 相比,PTST 表現更好,平均長度 2057,平均準確率 55.4%。

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

效果與實驗

出現“頓悟時刻”:

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

數學評測:

DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路-AI.x社區

參考文獻:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749) code:https://github.com/Osilly/Vision-R1


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/ckCuO83BwHpgRhc_joZ0jQ??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-3-13 15:39:36修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 范冰冰一级做a爰片久久毛片 | 欧美性tv| 日韩av电影院| 97精品超碰一区二区三区 | 国产精品久久久久久久久久妞妞 | 久久精品一区二区 | 亚洲精品久久久久久国产精华液 | 理论片87福利理论电影 | 欧美日韩三区 | 国产免费xxx| 亚洲欧洲色视频 | 成人在线精品视频 | 免费黄色的网站 | av天天操 | a黄视频 | 日韩电影免费在线观看中文字幕 | 国产精品久久久久久久午夜片 | 在线免费观看a级片 | 国产精品99久久久久久人 | 手机看片1 | 网黄在线| 中文在线一区二区 | 天天艹天天干天天 | 亚洲福利视频一区二区 | 色婷婷av777 av免费网站在线 | 91久久精品一区二区三区 | 在线观看免费黄色片 | 99国产精品99久久久久久粉嫩 | 九九免费在线视频 | 日本在线精品视频 | 久久久久久久久一区 | 午夜日韩视频 | 99精品亚洲国产精品久久不卡 | 国产欧美日韩在线播放 | 久久噜噜噜精品国产亚洲综合 | 亚洲九色 | 久久99精品久久久久久秒播九色 | 99这里只有精品视频 | 亚洲一区二区久久 | 亚洲不卡在线观看 | 成人精品在线观看 |