成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓 LLM 既能“看”又能“推理”!

發布于 2025-5-14 07:15
瀏覽
0收藏

DeepSeek-R1 會推理,GPT-4o 會看。能否讓

1 LLM既能看又能推理?

DeepSeek-R1取得很大成功,但它有個問題——無法處理圖像輸入

1.1 DeepSeek模型發展

自2024.12,DeepSeek已發布:

  • DeepSeek-V3(2024.12):視覺語言模型(VLM),支持圖像和文本輸入,類似 GPT-4o
  • DeepSeek-R1(2025.1):大規模推理模型(LRM),僅支持文本輸入,但具備更強的推理能力,類似 OpenAI-o1

我們已領略視覺語言模型(VLM)和大規模推理模型(LRM),下一個是誰?

我們需要視覺推理模型(VRM)——既能看又能推理。本文探討如何實現它。

2 現有模型的問題

當前VLM 不能很好推理,而 LRM 只能處理文本,無法理解視覺信息。若想要一個既能看懂圖像,又能深度推理的模型?

物理問題示例

我是一個學生,向 LLM 提問物理問題,并附帶一張圖像。

讓 LLM 既能“看”又能“推理”!-AI.x社區

就需要一個模型能同時:

  1. 理解圖像內容
  2. 進行深度推理(如分析問題、評估答案、考慮多種可能性)

就需要?? 一個大規模視覺推理模型(VRM),視覺推理模型示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

討論咋訓練 VRM 之前,先了解VLM(視覺語言模型)架構。

3 VLM架構

如LLaVA,Large Language and Vision Assistant(大規模語言與視覺助手),2023年底發布的知名 VLM。

LLM 通常采用 Transformer 結構,輸入文本后將其轉化為 token,再通過數學計算預測下一個 token。

如若輸入文本 "Donald Trump is the",LLM可能預測下一 token 為 "POTUS"(美國總統)。LLM 預測過程示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

那VLM咋工作的?VLM不僅根據前面的文本預測輸出,還會參考輸入的圖像。VLM 預測過程示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

咋讓 LLM 理解圖像?

4 VLM咋處理圖像輸入?

核心思路:將圖像數據轉換成 LLM 能理解的格式

LLaVA論文用 CLIP 視覺編碼器將圖像轉化為向量。然后,在編碼器后添加一個可訓練的線性層。圖像編碼示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

最終的視覺隱藏狀態(Hv)會與文本 token 的隱藏狀態拼接在一起,輸入 Transformer 層,最后生成預測結果。

LLaVA 在這里使用的是 Vicuna 作為 LLM。

讓 LLM 既能“看”又能“推理”!-AI.x社區

LLaVA 結構示意圖

不過,僅僅有這個結構是不夠的,模型還需要訓練,才能真正理解圖像內容。

5 VLM咋訓練?

LLaVA 采用了**端到端微調(End-to-End Fine-tuning)**的方式。

端到端微調:將整個模型視作一個黑盒,并進行整體訓練。

LLaVA 端到端微調示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

訓練時,CLIP編碼器的參數通常是凍結的,只更新線性層(W)和 LLM(?)的參數。LLaVA 微調過程示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

6 能否用強化學習(RL)訓練 VLM?

RL在 LLM 領域表現出色,提升了推理能力(如 RLHF 訓練的 GPT-4)。若用 RL 訓練 VLM,是否能打造更強的視覺推理模型?

圖像分類任務為例。

6.1 任務定義:圖像分類

訓練時,希望模型能根據圖像內容,輸出正確的類別標簽

讓 LLM 既能“看”又能“推理”!-AI.x社區

圖像分類示意圖

數據集中的每條數據包括:圖像、標題(正確答案)、問題

讓 LLM 既能“看”又能“推理”!-AI.x社區

強化學習獎勵設計

可設計兩種獎勵機制:

  • 正確性獎勵:如果模型輸出的答案正確(例如"dog"),則獎勵 +1。讓 LLM 既能“看”又能“推理”!-AI.x社區
  • 格式獎勵:如果模型按照固定格式輸出(先思考??<think>??,再回答??<answer>??),則額外獎勵。讓 LLM 既能“看”又能“推理”!-AI.x社區

這可鼓勵模型在回答前進行推理,而不是盲目給出答案。

7 實際應用

VLM目前在某些場景仍表現不佳,如數學和科學類問題

如題目正確答案 2 bpm,但 GPT-4o 回答錯誤:

讓 LLM 既能“看”又能“推理”!-AI.x社區

GPT-4o錯誤回答:

讓 LLM 既能“看”又能“推理”!-AI.x社區

如能讓 LLM 在視覺推理方面更強,或許能正確解答。期望的 VRM 結果:

本文轉載自??JavaEdge??,作者:JavaEdge

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品免费视频 | 中文字幕一级毛片 | 91精品国产91久久综合桃花 | 夜夜骚| 天天av网| 日本免费在线观看视频 | 欧美黑人巨大videos精品 | 最新免费黄色网址 | 国产成人自拍av | 国产高清精品在线 | 日韩免费视频一区二区 | 亚洲精品一区二区三区蜜桃久 | 日本午夜一区二区三区 | 国产一区二区三区四区 | 欧美黄色一级毛片 | 欧美日韩综合精品 | 日韩电影中文字幕 | 99久久免费精品国产免费高清 | 蜜月aⅴ免费一区二区三区 99re在线视频 | 亚洲精品成人 | 久久夜色精品国产 | 99久久电影 | 色综久久| 精品国产乱码久久久久久牛牛 | 性高湖久久久久久久久3小时 | www.日韩| 黄色在线免费观看 | 国产一二区免费视频 | 亚洲人精品午夜 | 国产91精品久久久久久久网曝门 | 中文字幕av在线一二三区 | 一级毛片中国 | 极品销魂美女一区二区 | 人人九九精 | 人人爱干 | 国产精品久久久久久久久免费丝袜 | 黄色免费观看网站 | 欧美在线小视频 | 亚洲国产精久久久久久久 | 黄色一级大片在线免费看产 | 91观看|