多模態(tài)也做到了強(qiáng)推理!工業(yè)界首個開源的R1V,讓視覺思考進(jìn)入o1時代
DeepSeek-R1 問世后,我們一直在期待能「強(qiáng)推理、慢思考」的大模型進(jìn)化成多模態(tài)模式。如果能在視覺等各領(lǐng)域復(fù)刻強(qiáng)化學(xué)習(xí)(RL)在文本上的突破,AI 應(yīng)用勢必會將更多領(lǐng)域推入新的范式。
毫無疑問,這也是眾多科技公司正在探索的方向。
3 月 18 號,昆侖萬維正式發(fā)布 Skywork R1V(以下簡稱 R1V)系列模型,實(shí)現(xiàn)了 SOTA 級別的視覺推理和強(qiáng)大的通用推理能力。隨著新模型的到來,昆侖萬維成為了國內(nèi)第一家開源多模態(tài)思維鏈推理模型的企業(yè)。
目前,昆侖萬維已經(jīng)開源了 R1V 的模型權(quán)重和技術(shù)報告。
- Hugging Face 地址:https://huggingface.co/Skywork/Skywork-R1V-38B
- Github 地址:https://github.com/SkyworkAI/Skywork-R1V
- 技術(shù)報告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
具體表現(xiàn)如何呢?從多項基準(zhǔn)測試來看,R1V-38B 相比較文本推理模型,已經(jīng)在數(shù)學(xué)推理、代碼生成等任務(wù)中達(dá)到了領(lǐng)先水平,在部分任務(wù)上接近了更大尺寸的閉源模型。相比較傳統(tǒng)多模態(tài)模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遙遙領(lǐng)先,相比開源大模型 DeepSeek V3 也有所提升。
在推理能力方面,R1V-38B 同樣可以達(dá)到頂尖水平。在權(quán)威的 MATH500 和 AIME 數(shù)學(xué)推理基準(zhǔn)測試中,R1V 分別取得了 94.0 和 72.0 的高分,并在邏輯推理和數(shù)學(xué)問題求解上展現(xiàn)出了人類專家級水準(zhǔn),從而在行業(yè)內(nèi)眾多主流模型中脫穎而出。
而在視覺能力方面,R1V 成功實(shí)現(xiàn)了強(qiáng)文本推理能力的多模態(tài)遷移,在視覺推理任務(wù)上表現(xiàn)出色,憑借著創(chuàng)新的跨模態(tài)遷移技術(shù)與優(yōu)化框架,R1V 在 MMMU 與 MathVista 等視覺推理基準(zhǔn)中分別取得了 69 和 67.5 的成績,不僅超越了多個開源競品模型,更達(dá)到了與更大規(guī)模閉源模型媲美的水準(zhǔn)。
更值得關(guān)注的是,R1V 成為全球范圍內(nèi)首個在數(shù)學(xué)推理能力上接近 OpenAI o1 的開源多模態(tài)模型。
最近一段時間,DeepSeek 的突破讓我們看到了在大模型上引入強(qiáng)化學(xué)習(xí)的潛力。現(xiàn)在,昆侖萬維的實(shí)踐似乎也已經(jīng)給多模態(tài)打開了方向。
多模態(tài)喜獲「強(qiáng)推理」
AI 應(yīng)用格局打開
昆侖萬維表示,R1V 視覺推理模型可以同時處理文本與視覺信息,擁有強(qiáng)大的跨模態(tài)推理能力,可輕松應(yīng)對復(fù)雜的邏輯推理、數(shù)學(xué)問題、科學(xué)分析以及醫(yī)學(xué)影像診斷等場景。
因為多模態(tài) + 強(qiáng)推理的能力,大模型「睜開了眼睛」,因此也拓展了一大堆新的應(yīng)用方向。
我們搜羅了一些不同學(xué)科(包括數(shù)學(xué)、化學(xué)、醫(yī)學(xué)等)的題目,對 R1V 的解題推理能力來了一波考察。
先來一道 2025 考研數(shù)學(xué)題目:
很快,R1V 的完整解題思路和正確答案就展現(xiàn)了在我們面前:
接著讓 R1V 分析下圖化學(xué)分子式描述的是哪種立體幾何構(gòu)型:
這類題目要求多模態(tài)推理模型熟練、準(zhǔn)確地判斷、區(qū)分各類化學(xué)分子圖,經(jīng)過了抽絲剝繭的推理過程,R1V 給出了正確答案。
R1V 的知識面還不止于此,它甚至還略懂醫(yī)學(xué)影像,看看它是如何診斷這張 CT 圖片的。當(dāng)然,分析結(jié)果僅供參考,最終的診斷和治療還是要交給醫(yī)生,由他們根據(jù)實(shí)際情況來做出。
最后,我們還測試了 R1V 的其他視覺推理能力,比如柱狀圖的數(shù)值分析:
可見,無論是數(shù)學(xué)等不同學(xué)科的一般性問題,還是一些更需要「眼力見」的視覺場景,R1V 都可以應(yīng)付自如。
三大核心技術(shù)創(chuàng)新
讓開源視覺思考模型成功「上位」
為什么到了 R1V 的程度,多模態(tài)上的強(qiáng)推理就能跑通了?在 R1V 發(fā)布的技術(shù)報告中,我們可以了解到其中的技術(shù)創(chuàng)新。
視覺多模態(tài)的特殊性決定了其推理與數(shù)學(xué)、邏輯等自然語言推理的不同,前者要解決跨模態(tài)對齊等一系列挑戰(zhàn)。盡管當(dāng)前的視覺語言模型(VLM)在描述性任務(wù)(比如為圖像生成連貫且上下文相關(guān)的文本描述)方面表現(xiàn)出色,但它們在幾何證明、科學(xué)問答等涉及深度邏輯的多模態(tài)任務(wù)中仍然不如單模態(tài)系統(tǒng)。
圖片來自英偉達(dá)博客:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/
對此,學(xué)界提出將具有推理能力的語言模型集成到 VLM 中來增強(qiáng)后者的推理能力。雖然這一方案很有潛力,但實(shí)現(xiàn)過程中也面臨挑戰(zhàn)。比如,推理任務(wù)的獨(dú)特性要求在訓(xùn)練時使用專門的推理格式的數(shù)據(jù),然而當(dāng)前的 VLM 數(shù)據(jù)集主要由非推理內(nèi)容組成,即使是一些包含 VLM 思維鏈的示例,往往缺乏高級推理任務(wù)所需的復(fù)雜性。
此外,VLM 的推理能力提升也依賴多模態(tài)表征學(xué)習(xí)、知識增強(qiáng)、模塊化架構(gòu)設(shè)計等技術(shù)層面的協(xié)同進(jìn)步。顯然,昆侖萬維的 R1V 在這些方面做出了突破。
作為一個 VLM 推理模型,R1V 采用高效的多模態(tài)遷移方法,最大程度保留了文本推理能力,同時優(yōu)化視覺任務(wù)表現(xiàn)。同時,R1V 提出通過混合優(yōu)化策略來加強(qiáng)視覺文本對齊,顯著提升了跨模態(tài)集成效率。最后,R1V 引入自適應(yīng)長度思維鏈蒸餾方法來生成推理數(shù)據(jù)。
正是有了這三大核心技術(shù)的支撐,R1-V 才取得了領(lǐng)先的多模態(tài)推理性能。我們接下來一一來解析。
一,高效多模態(tài)推理能力遷移。該工作首次提出了利用輕量級 Skywork-VL 視覺投影器,使 R1V 模型實(shí)現(xiàn)了無縫多模態(tài)適應(yīng)。這樣一來,無需重新訓(xùn)練基礎(chǔ)語言模型或視覺編碼器,就能高效地將文本推理能力遷移到視覺任務(wù)中,同時將原有優(yōu)秀的推理文本能力保留了下來。
二,多模態(tài)混合式訓(xùn)練,具體來講是將迭代監(jiān)督微調(diào)(Iterative SFT) 與 DeepSeek-R1 的核心 RL 算法群組(相對策略優(yōu)化,GRPO)相結(jié)合,分階段地對齊視覺 - 文本表征,達(dá)成跨模態(tài)任務(wù)的高效融合,將跨模態(tài)任務(wù)的表現(xiàn)提升了一大步。
其中在迭代監(jiān)督微調(diào)階段,對于利用獎勵模型從全部數(shù)據(jù)中挑選出的高質(zhì)量數(shù)據(jù)以及在前序訓(xùn)練過程中模型未能正確處理的難點(diǎn)數(shù)據(jù),進(jìn)行反復(fù)迭代微調(diào),讓 R1V 持續(xù)地鞏固自身知識并自我糾錯,穩(wěn)步提升視覺推理能力。
在 GRPO 強(qiáng)化學(xué)習(xí)階段,不額外引入評判器,僅對 R1V 生成的不同答案進(jìn)行組內(nèi)對比學(xué)習(xí),最終大幅提升多模態(tài)推理的穩(wěn)定性、精度和泛化表現(xiàn)。
如下為混合優(yōu)化框架的示意圖,包括了三個細(xì)化步驟:基于完整數(shù)據(jù)集的原始訓(xùn)練、利用自定義數(shù)據(jù)的迭代訓(xùn)練以及強(qiáng)化學(xué)習(xí)。三個階段共同作用,成為 R1V 多模態(tài)推理能力提升的關(guān)鍵。
多模態(tài)混合式訓(xùn)練
三,自適應(yīng)長度思維鏈蒸餾(AL-CoTD)。R1V 引入了一種基于視覺 - 文本復(fù)雜度的自適應(yīng)推理鏈長度控制機(jī)制,可以對模型的推理過程進(jìn)行動態(tài)優(yōu)化,在提升推理效率的同時避免模型過度思考。此外結(jié)合多階段自蒸餾策略,提升了數(shù)據(jù)生成與推理過程的質(zhì)量,確保模型在復(fù)雜多模態(tài)任務(wù)中依然有不俗的表現(xiàn)。
下圖為具體的流程,包括了質(zhì)量和難度評估模塊(QDAM),從視覺評分和文本評分兩個主要維度來系統(tǒng)地評估圖像 - 文本查詢對;視覺 - 文本集成分析器(VTIA),通過句法和語義分析確定跨模態(tài)集成所需要的深度,并根據(jù)圖像 - 文本查詢中的模式識別來計算集成評分;動態(tài)推理長度控制器(DRLC)以及在此基礎(chǔ)上形成的多階段自蒸餾 pipeline。
AL-CoTD 流程
除了整體技術(shù)方案的優(yōu)化,R1V 的創(chuàng)新性還特別體現(xiàn)在訓(xùn)練過程中,通過「三階段方法」將文本端強(qiáng)大的推理能力高效遷移至視覺任務(wù)上。
首先是視覺語言表征的初始對齊。訓(xùn)練時首先使用輕量級的視覺適配器(MLP)連接視覺編碼器(ViT)與語言模型,在已有的 200 萬條常規(guī)多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練,使 MLP 初步學(xué)習(xí)如何將圖像特征映射至語言空間。這一階段僅訓(xùn)練 MLP 適配器,在保持視覺編碼器和語言模型的數(shù)凍結(jié)不變的情況下,快速、高效地達(dá)成視覺與語言表征初步對齊的目的。
其次是推理能力遷移。基于第一階段訓(xùn)練好的 MLP 適配器,直接將視覺編碼器與原始的強(qiáng)推理語言模型(R1-distilled-Qwen-32B)連接,形成 R1V 視覺推理模型。雖然此時語言模型的參數(shù)發(fā)生了改變,但得益于語言模型架構(gòu)的高度相似性和 MLP 的泛化能力,重組后的模型已能表現(xiàn)出一定的視覺推理能力,初始性能即達(dá)到了業(yè)內(nèi)同等規(guī)模的先進(jìn)水平。
最后是視覺與文本模態(tài)精準(zhǔn)對齊,即上面提到的「混合優(yōu)化框架」,結(jié)合迭代監(jiān)督微調(diào)和 GRPO 進(jìn)一步精準(zhǔn)對齊視覺和語言模態(tài)表征。
結(jié)果顯而易見,高效的訓(xùn)練策略帶來了 R1V 視覺推理任務(wù)的突破性進(jìn)展,在跨多學(xué)科的不同公開評測基準(zhǔn)中達(dá)到或超過了現(xiàn)有領(lǐng)先模型的性能,具體可見下表 1(與開源近似尺寸橫向?qū)Ρ龋?、圖 1 (與開源同等及更大尺寸模型對比)和圖 2 (與開源大尺寸模型以及閉源專有模型對比)。
表 1:與開源近似尺寸模型橫向?qū)Ρ?/span>
圖 1:與開源同等及更大尺寸模型對比
圖 2:與開源更大尺寸模型以及閉源專有模型對比
在開源 R1V 模型并公開方法之后,昆侖萬維希望能夠推動全球范圍內(nèi)的學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用探索。不僅如此,昆侖萬維 Skywork 團(tuán)隊正在進(jìn)行從視覺多模態(tài)跨越到全模態(tài)的技術(shù)探索,將包括「文本、視覺、語音」在內(nèi)所有環(huán)節(jié)打通并開源。
為此,該團(tuán)隊設(shè)計了一種在 R1V 模型中靈活擴(kuò)展語音模態(tài)的方式,從而構(gòu)建了一個全模態(tài)思考大模型,不僅在單個模型中同時實(shí)現(xiàn)了圖像、視頻、語音的全模態(tài)理解能力,還在語音和視覺理解評測中取得多項 SOTA 成績。未來將公布相關(guān)評測成績并同樣開源這一全模態(tài)思考大模型。
結(jié)語
從今年 1 月 DeepSeek-R1 的提出,到人們開始在多模態(tài)大模型、甚至自動駕駛的 VLM 中加入 GRPO,僅僅過去了不到兩個月。我們可以看到在這一波開源的浪潮下,AI 領(lǐng)域的發(fā)展肉眼可見地再次加速,下一次突破可能已近在眼前。
不過在這股浪潮中,能算得上引領(lǐng)潮流的團(tuán)隊只是少數(shù)。
進(jìn)入大模型時代之后,昆侖萬維在多模態(tài)領(lǐng)域的探索一直引人關(guān)注。過去三年,昆侖萬維在音樂大模型、文本大模型和視頻模型等方向取得了一系列成績,建立了自己的 AI 產(chǎn)品矩陣,包括懂金融、學(xué)術(shù)的天工 AI 搜索、全球首個 AI 音樂創(chuàng)作平臺 Mureka、AI 短劇平臺 SkyReels、AI 社交產(chǎn)品 Linky 等等。
今年 2 月,昆侖萬維發(fā)布世界模型 Matrix-Zero 系列,把探索延伸到了 AI 領(lǐng)域最前沿的方向。在可以模擬物理世界的 AI 模型中,我們可以運(yùn)行許多實(shí)驗和仿真任務(wù),或是完成不同以往的影視創(chuàng)作。再加上今天開源出來的 R1V 大模型,在讓大模型實(shí)現(xiàn)多模態(tài)強(qiáng)推理之后,AI 面對物理世界獲得了更強(qiáng)大的理解、推理、交互能力。
此舉也彰顯了昆侖萬維在 AI 時代始終秉持的開源初心。過去幾年,這家「All in AGI」的 AI 科技公司在推出前沿大模型及技術(shù)的同時,一直通過開源回饋社區(qū)與開發(fā)者,先后開源了百億級「天工」Skywork-13B 系列、2 千億參數(shù)稀疏大模型 Skywork-MoE 和國內(nèi)首個面向 AI 短劇創(chuàng)作的視頻生成模型 SkyReels-V1 等。這些舉措在擴(kuò)大自身技術(shù)影響力的同時,無疑也對開源社區(qū)、開發(fā)生態(tài)和整個 AI 行業(yè)的健康發(fā)展起到了積極作用。
一面是技術(shù)前沿的開拓,一面是更多樣化的整合與落地,昆侖萬維已經(jīng)形成了「AI 前沿基礎(chǔ)研究 —— 基座模型 ——AI 矩陣產(chǎn)品 / 應(yīng)用」的產(chǎn)業(yè)鏈。
似乎已經(jīng)可以隱隱聽到 AGI 的腳步聲了。