讓 LLM 既能“看”又能“推理”！

JavaEdge1

發布于 2025-5-14 07:15

瀏覽

0收藏

DeepSeek-R1 會推理，GPT-4o 會看。能否讓

1 LLM既能看又能推理？

DeepSeek-R1取得很大成功，但它有個問題——無法處理圖像輸入。

1.1 DeepSeek模型發展

自2024.12，DeepSeek已發布：

DeepSeek-V3（2024.12）：視覺語言模型（VLM），支持圖像和文本輸入，類似 GPT-4o
DeepSeek-R1（2025.1）：大規模推理模型（LRM），僅支持文本輸入，但具備更強的推理能力，類似 OpenAI-o1

我們已領略視覺語言模型（VLM）和大規模推理模型（LRM），下一個是誰？

我們需要視覺推理模型（VRM）——既能看又能推理。本文探討如何實現它。

2 現有模型的問題

當前VLM 不能很好推理，而 LRM 只能處理文本，無法理解視覺信息。若想要一個既能看懂圖像，又能深度推理的模型？

物理問題示例

我是一個學生，向 LLM 提問物理問題，并附帶一張圖像。

讓 LLM 既能“看”又能“推理”！-AI.x社區

就需要一個模型能同時：

理解圖像內容
進行深度推理（如分析問題、評估答案、考慮多種可能性）

就需要?? 一個大規模視覺推理模型（VRM），視覺推理模型示意圖：

讓 LLM 既能“看”又能“推理”！-AI.x社區

討論咋訓練 VRM 之前，先了解VLM（視覺語言模型）架構。

3 VLM架構

如LLaVA，Large Language and Vision Assistant（大規模語言與視覺助手），2023年底發布的知名 VLM。

LLM 通常采用 Transformer 結構，輸入文本后將其轉化為 token，再通過數學計算預測下一個 token。

如若輸入文本 "Donald Trump is the"，LLM可能預測下一 token 為 "POTUS"（美國總統）。LLM 預測過程示意圖：

讓 LLM 既能“看”又能“推理”！-AI.x社區

那VLM咋工作的？VLM不僅根據前面的文本預測輸出，還會參考輸入的圖像。VLM 預測過程示意圖：

讓 LLM 既能“看”又能“推理”！-AI.x社區

但咋讓 LLM 理解圖像？

4 VLM咋處理圖像輸入？

核心思路：將圖像數據轉換成 LLM 能理解的格式。

LLaVA論文用 CLIP 視覺編碼器將圖像轉化為向量。然后，在編碼器后添加一個可訓練的線性層。圖像編碼示意圖：

讓 LLM 既能“看”又能“推理”！-AI.x社區

最終的視覺隱藏狀態（Hv）會與文本 token 的隱藏狀態拼接在一起，輸入 Transformer 層，最后生成預測結果。

LLaVA 在這里使用的是 Vicuna 作為 LLM。

讓 LLM 既能“看”又能“推理”！-AI.x社區

LLaVA 結構示意圖

不過，僅僅有這個結構是不夠的，模型還需要訓練，才能真正理解圖像內容。

5 VLM咋訓練？

LLaVA 采用了**端到端微調（End-to-End Fine-tuning）**的方式。

端到端微調：將整個模型視作一個黑盒，并進行整體訓練。

LLaVA 端到端微調示意圖：

讓 LLM 既能“看”又能“推理”！-AI.x社區

訓練時，CLIP編碼器的參數通常是凍結的，只更新線性層（W）和 LLM（?）的參數。LLaVA 微調過程示意圖：

讓 LLM 既能“看”又能“推理”！-AI.x社區

6 能否用強化學習（RL）訓練 VLM？

RL在 LLM 領域表現出色，提升了推理能力（如 RLHF 訓練的 GPT-4）。若用 RL 訓練 VLM，是否能打造更強的視覺推理模型？

以圖像分類任務為例。

6.1 任務定義：圖像分類

訓練時，希望模型能根據圖像內容，輸出正確的類別標簽。

讓 LLM 既能“看”又能“推理”！-AI.x社區

圖像分類示意圖

數據集中的每條數據包括：圖像、標題（正確答案）、問題。

讓 LLM 既能“看”又能“推理”！-AI.x社區

強化學習獎勵設計

可設計兩種獎勵機制：

正確性獎勵：如果模型輸出的答案正確（例如"dog"），則獎勵 +1。
格式獎勵：如果模型按照固定格式輸出（先思考??<think>??，再回答??<answer>??），則額外獎勵。

這可鼓勵模型在回答前進行推理，而不是盲目給出答案。

7 實際應用

VLM目前在某些場景仍表現不佳，如數學和科學類問題。

如題目正確答案 2 bpm，但 GPT-4o 回答錯誤：

讓 LLM 既能“看”又能“推理”！-AI.x社區

GPT-4o錯誤回答：

讓 LLM 既能“看”又能“推理”！-AI.x社區

如能讓 LLM 在視覺推理方面更強，或許能正確解答。期望的 VRM 結果：

本文轉載自??JavaEdge??，作者：JavaEdge

標簽

LLM

視覺

VRM

贊

回復

舉報

回復

相關推薦

「我在淘天做技術」2024年看AIGC是如何讓1688主圖煥發新春的

wx5bbef785639a1 ? 2893瀏覽 ? 0回復
三大關鍵技術看RAG如何提升LLM的能力

angel ? 8114瀏覽 ? 0回復
ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了

輕薄滴假象 ? 3891瀏覽 ? 0回復
【LLM】從軟件工程視角看大語言模型測試

sbf_2000 ? 3630瀏覽 ? 0回復
看AI如何大海撈針，探索LLM能力邊界實戰?

ermulong ? 2980瀏覽 ? 0回復
看張手繪草圖就能合成圖形程序，加州伯克利讓擴散模型掌握新技能

輕薄滴假象 ? 2700瀏覽 ? 0回復
AI技術新前沿本地LLM模型推理訓練加速

AIGC觀察者 ? 3554瀏覽 ? 0回復
突破大語言模型的邏輯瓶頸：Logic-of-Thought方法讓LLM更懂"推理" | 用外部數據增強大語言模型：RAG全面解

sbf_2000 ? 4201瀏覽 ? 0回復
微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

amei2000go ? 2894瀏覽 ? 0回復
StaR ｜用少量推理數據讓模型學會通用推理能力，顯著提升模型復雜推理

arnoldzhw ? 3378瀏覽 ? 0回復
淺看引入智能信息助理提升大模型處理復雜推理任務的潛力-AssisTRAG

大模型自然語言處理 ? 2304瀏覽 ? 0回復
如何進行高效的LLM分布式推理

zhcs333 ? 2753瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優化

amei2000go ? 4930瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優化

amei2000go ? 2916瀏覽 ? 0回復
MHA -> GQA：提升 LLM 推理效率

amei2000go ? 2582瀏覽 ? 0回復
OmniThink：如何讓 LLM 寫出有更有深度的文章

大語言模型論文跟蹤 ? 2049瀏覽 ? 0回復
看 Inconvo 如何用 LangGraph 讓小白秒變分析師

ermulong ? 1369瀏覽 ? 0回復
AI Agent 既能 “單挑” 工具，又能 “群毆” 任務

老蛀蟲 ? 4207瀏覽 ? 0回復
【LLM合集】Qwen2.5-Omni：像人類一樣「看聽想說」的全能助手來了！

AIPaperDaily ? 1666瀏覽 ? 0回復

JavaEdge1

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

讓 LLM 既能“看”又能“推理”！

1 LLM既能看又能推理？

1.1 DeepSeek模型發展

2 現有模型的問題

物理問題示例

3 VLM架構

4 VLM咋處理圖像輸入？

5 VLM咋訓練？

6 能否用強化學習（RL）訓練 VLM？

6.1 任務定義：圖像分類

強化學習獎勵設計

7 實際應用

目錄