讓 LLM 既能“看”又能“推理”!
DeepSeek-R1 會推理,GPT-4o 會看。能否讓
1 LLM既能看又能推理?
DeepSeek-R1取得很大成功,但它有個問題——無法處理圖像輸入。
1.1 DeepSeek模型發展
自2024.12,DeepSeek已發布:
- DeepSeek-V3(2024.12):視覺語言模型(VLM),支持圖像和文本輸入,類似 GPT-4o
- DeepSeek-R1(2025.1):大規模推理模型(LRM),僅支持文本輸入,但具備更強的推理能力,類似 OpenAI-o1
我們已領略視覺語言模型(VLM)和大規模推理模型(LRM),下一個是誰?
我們需要視覺推理模型(VRM)——既能看又能推理。本文探討如何實現它。
2 現有模型的問題
當前VLM 不能很好推理,而 LRM 只能處理文本,無法理解視覺信息。若想要一個既能看懂圖像,又能深度推理的模型?
物理問題示例
我是一個學生,向 LLM 提問物理問題,并附帶一張圖像。
就需要一個模型能同時:
- 理解圖像內容
- 進行深度推理(如分析問題、評估答案、考慮多種可能性)
就需要?? 一個大規模視覺推理模型(VRM),視覺推理模型示意圖:
討論咋訓練 VRM 之前,先了解VLM(視覺語言模型)架構。
3 VLM架構
如LLaVA,Large Language and Vision Assistant(大規模語言與視覺助手),2023年底發布的知名 VLM。
LLM 通常采用 Transformer 結構,輸入文本后將其轉化為 token,再通過數學計算預測下一個 token。
如若輸入文本 "Donald Trump is the",LLM可能預測下一 token 為 "POTUS"(美國總統)。LLM 預測過程示意圖:
那VLM咋工作的?VLM不僅根據前面的文本預測輸出,還會參考輸入的圖像。VLM 預測過程示意圖:
但咋讓 LLM 理解圖像?
4 VLM咋處理圖像輸入?
核心思路:將圖像數據轉換成 LLM 能理解的格式。
LLaVA論文用 CLIP 視覺編碼器將圖像轉化為向量。然后,在編碼器后添加一個可訓練的線性層。圖像編碼示意圖:
最終的視覺隱藏狀態(Hv)會與文本 token 的隱藏狀態拼接在一起,輸入 Transformer 層,最后生成預測結果。
LLaVA 在這里使用的是 Vicuna 作為 LLM。
LLaVA 結構示意圖
不過,僅僅有這個結構是不夠的,模型還需要訓練,才能真正理解圖像內容。
5 VLM咋訓練?
LLaVA 采用了**端到端微調(End-to-End Fine-tuning)**的方式。
端到端微調:將整個模型視作一個黑盒,并進行整體訓練。
LLaVA 端到端微調示意圖:
訓練時,CLIP編碼器的參數通常是凍結的,只更新線性層(W)和 LLM(?)的參數。LLaVA 微調過程示意圖:
6 能否用強化學習(RL)訓練 VLM?
RL在 LLM 領域表現出色,提升了推理能力(如 RLHF 訓練的 GPT-4)。若用 RL 訓練 VLM,是否能打造更強的視覺推理模型?
以圖像分類任務為例。
6.1 任務定義:圖像分類
訓練時,希望模型能根據圖像內容,輸出正確的類別標簽。
圖像分類示意圖
數據集中的每條數據包括:圖像、標題(正確答案)、問題。
強化學習獎勵設計
可設計兩種獎勵機制:
- 正確性獎勵:如果模型輸出的答案正確(例如"dog"),則獎勵 +1。
- 格式獎勵:如果模型按照固定格式輸出(先思考?
?<think>?
?,再回答??<answer>?
?),則額外獎勵。
這可鼓勵模型在回答前進行推理,而不是盲目給出答案。
7 實際應用
VLM目前在某些場景仍表現不佳,如數學和科學類問題。
如題目正確答案 2 bpm,但 GPT-4o 回答錯誤:
GPT-4o錯誤回答:
如能讓 LLM 在視覺推理方面更強,或許能正確解答。期望的 VRM 結果:
本文轉載自??JavaEdge??,作者:JavaEdge
