快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元 精華
導(dǎo)讀:近日,快手發(fā)布并開源其最新自研的多模態(tài)大語言模型 Kwai Keye-VL。Kwai Key-VL采用 VisionEncoder-Projector-LLM 架構(gòu),集成了文本、圖像、視頻信息的混合輸入處理能力,旨在為用戶帶來更智能、更全面的多模態(tài)交互體驗(yàn)。
如果有人突然問你:「這張圖片中有幾顆草莓」?你會如何快速回復(fù)?
面對五彩繽紛的果盤,我們往往需要反復(fù)端詳,放大圖片再逐一清點(diǎn),耗費(fèi)不少時間才能得到答案。
然而,AI大模型正讓這種復(fù)雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗(yàn)中,它自動解析圖像細(xì)節(jié),執(zhí)行圖像區(qū)域裁剪,放大相關(guān)的計(jì)算代碼以增強(qiáng)感知效果,在短短幾秒內(nèi)給出精準(zhǔn)答案,一共20顆。
Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。該模型以 Qwen3-8B 語言模型為基礎(chǔ),引入了基于開源 SigLIP 初始化的 VisionEncoder,Kwai Keye-VL 能夠深度融合并處理文本、圖像、視頻等多模態(tài)信息,憑借其創(chuàng)新的自適應(yīng)交互機(jī)制與動態(tài)推理能力,旨在為用戶提供更智能、全面的多模態(tài)交互體驗(yàn)。在視覺理解與邏輯推理能力方面,Kwai Keye-VL 的綜合感知能力媲美同規(guī)模頂尖模型,并在復(fù)雜推理任務(wù)中展現(xiàn)出顯著優(yōu)勢!值得一提的是,其在邏輯推理上的優(yōu)異表現(xiàn):在最新的2025年高考全國數(shù)學(xué)卷中取得了140分的成績。目前,Kwai Keye-VL 已正式開源。
[?? Homepage] : ??https://kwai-keye.github.io/??
[??Github Repo] :???https://github.com/Kwai-Keye/Keye??
[?? Model Weight] :???https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview??
[??KC-MMBench] :???https://huggingface.co/datasets/Kwai-Keye/KC-MMbench??
「核心技術(shù)架構(gòu)全公開」
?
Kwai Keye-VL 基于 Qwen3-8B 語言模型,并整合了 SigLIP 初始化的視覺編碼器。Kwai Keye-VL 支持動態(tài)分辨率輸入,按原始比例將圖像切分為 14x14 patch 序列,由一個 MLP 層將視覺 Token 進(jìn)行映射與合并。模型采用 3D RoPE (旋轉(zhuǎn)位置編碼)統(tǒng)一處理文本、圖像和視頻,并通過位置編碼與時間戳對齊,精準(zhǔn)捕捉視頻時序變化。
一、Pre-Train:構(gòu)建多模態(tài)基座能力
一、Pre-Train:構(gòu)建多模態(tài)基座能力
Kwai Keye-VL 的預(yù)訓(xùn)練階段核心目標(biāo)是構(gòu)建強(qiáng)大的圖文和視頻理解能力(即視覺-語言對齊)。為支撐這一目標(biāo),模型使用了總量高達(dá) 600B 的大規(guī)模多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集,包含圖文、視頻及純文本數(shù)據(jù)。此外,Kwai Keye-VL 通過自建高質(zhì)量中文 OCR 系統(tǒng)和精細(xì)化描述數(shù)據(jù),有效突破了開源數(shù)據(jù)的局限,專門服務(wù)于模型圖文/視頻理解能力的訓(xùn)練。
訓(xùn)練流程采用四階段漸進(jìn)式優(yōu)化策略:
?
- 視覺預(yù)訓(xùn)練:持續(xù)預(yù)訓(xùn)練視覺編碼器,使其適配內(nèi)部數(shù)據(jù)分布并支持動態(tài)分辨率輸入。
- 跨模態(tài)對齊:凍結(jié)主干模型,僅訓(xùn)練輕量級 MLP 適配器,以極低成本高效建立魯棒的圖文/視頻-文本對齊關(guān)系。
- 多任務(wù)預(yù)訓(xùn)練:解鎖全部模型參數(shù),進(jìn)行多任務(wù)聯(lián)合訓(xùn)練,全面提升模型的綜合視覺理解能力。
- 退火訓(xùn)練:使用精選高質(zhì)量數(shù)據(jù)進(jìn)行精調(diào),進(jìn)一步提升模型的精細(xì)理解和判別能力。
最后,Kwai Keye-VL 探索了同構(gòu)異質(zhì)融合技術(shù),通過參數(shù)平均融合不同數(shù)據(jù)配比的退火訓(xùn)練模型,在保留多維度能力的同時,減小模型偏差,增強(qiáng)了模型的魯棒性。
?
二、Post-Train:兩階段精細(xì)微調(diào),突破性強(qiáng)化推理能力
?
Kwai Keye-VL 的后訓(xùn)練階段經(jīng)過精心設(shè)計(jì),旨在全面提升模型的性能,尤其是其在復(fù)雜任務(wù)中的推理能力,這一部分是模型實(shí)現(xiàn)高級認(rèn)知功能的關(guān)鍵突破。
Stage I. 非推理訓(xùn)練 (No-Reasoning Training):夯實(shí)基礎(chǔ)性能
Kwai Keye-VL 首先進(jìn)行監(jiān)督精調(diào) (SFT),使用 500 萬條高質(zhì)量多模態(tài)VQA數(shù)據(jù),數(shù)據(jù)多樣性由自研TaskGalaxy方案建立的任務(wù)體系(包含7W種任務(wù))保證,數(shù)據(jù)質(zhì)量經(jīng)AI 篩選困難樣本及人工標(biāo)注保障。
隨后進(jìn)行混合偏好優(yōu)化 (MPO),結(jié)合開源數(shù)據(jù)與自建的偏好數(shù)據(jù),后者通過收集 SFT 錯誤樣本作提問素材、Qwen2.5VL 72B 與 SFT 模型生成答案對、人工排序獲得。
?
Stage II. 推理訓(xùn)練 (Reasoning Training):核心突破,賦能復(fù)雜認(rèn)知
此階段是 Kwai Keye-VL 訓(xùn)練流程的最大亮點(diǎn)與貢獻(xiàn),通過引入Mix-mode的思維鏈(CoT)和多思考模式強(qiáng)化學(xué)習(xí)(RL)機(jī)制,顯著提升模型的多模態(tài)感知、推理和think with image能力,使其能夠處理更復(fù)雜、需要多步思考的任務(wù)。
具體來說:
Step 1 :思維鏈冷啟動階段(CoT Cold-Start):通過混合四種推理模式的訓(xùn)練數(shù)據(jù)(非推理數(shù)據(jù)、推理數(shù)據(jù) 、自動推理數(shù)據(jù) 和智能體 (agentic) 推理數(shù)據(jù)),實(shí)現(xiàn)對模型思維鏈能力的零基礎(chǔ)激活,使其初步掌握人類分步思考的推理范式。
Step 2:混合強(qiáng)化學(xué)習(xí)階段(CoT-Mix RL):在冷啟動基礎(chǔ)上,采用GRPO算法進(jìn)行混合模式強(qiáng)化學(xué)習(xí),通過創(chuàng)新的雙軌獎勵機(jī)制(同步評估結(jié)果正確性與過程一致性)深度優(yōu)化多模態(tài)感知、數(shù)學(xué)推理、短視頻理解及智能體協(xié)同等綜合能力,顯著提升模型的推理能力。
Step 3:多輪迭代對齊階段(Iterative Alignment): 利用MPO算法對優(yōu)/劣數(shù)據(jù)對進(jìn)行多輪迭代,根治內(nèi)容重復(fù)崩潰與邏輯斷層問題,最終賦予模型根據(jù)問題復(fù)雜度智能選擇深度推理模式的自適應(yīng)能力,實(shí)現(xiàn)性能與穩(wěn)定性的雙重突破。
?
?
Kwai Keye-VL 通過分階段、精細(xì)化的預(yù)訓(xùn)練與后訓(xùn)練策略,特別是對推理能力的深度強(qiáng)化與創(chuàng)新性突破,確保了模型在多種復(fù)雜場景下都能提供高質(zhì)量、邏輯嚴(yán)謹(jǐn)且穩(wěn)定的輸出。
三、訓(xùn)練架構(gòu)優(yōu)化:高效穩(wěn)定的千億參數(shù)模型訓(xùn)練
為實(shí)現(xiàn)百億參數(shù)模型的高效穩(wěn)定訓(xùn)練,Kwai Keye-VL 通過混合并行策略(整合數(shù)據(jù)并行/序列并行/ZeRO技術(shù))顯著提升訓(xùn)練吞吐量,既利用顯存分片降低壓力,又通過計(jì)算通信重疊隱藏延遲。
不同于純文本模型訓(xùn)練,多模態(tài)輸入分辨率差異很大,不同顯卡計(jì)算負(fù)載不均會導(dǎo)致整體利用率降低,Kwai Keye-VL在訓(xùn)練框架中實(shí)現(xiàn)了全局負(fù)載均衡策略,依據(jù)樣本FLOPS動態(tài)分發(fā)樣本,盡可能消除硬件閑置,顯著提高了多模態(tài)訓(xùn)練的MFU。同時構(gòu)建了樣本級自動容錯機(jī)制,依托聯(lián)合檢查點(diǎn)技術(shù)使訓(xùn)練意外中斷后可自動精準(zhǔn)續(xù)訓(xùn),保證了模型迭代的穩(wěn)定性。
后訓(xùn)練階段則通過升級vLLM框架加速采樣,并部署多獎勵模型隨機(jī)分發(fā)策略,大幅壓縮強(qiáng)化學(xué)習(xí)的計(jì)算耗時,系統(tǒng)性保障了大規(guī)模訓(xùn)練的穩(wěn)定性與效率。
?
四、模型評估
視覺理解/邏輯推理benchmark
Kwai Keye-VL 在綜合感知能力比肩同規(guī)模頂尖模型的同時,在復(fù)雜推理任務(wù)中展現(xiàn)出顯著領(lǐng)先優(yōu)勢。
評測數(shù)據(jù)顯示:其基礎(chǔ)感知達(dá)行業(yè)一流水準(zhǔn);而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,該模型性能曲線大幅領(lǐng)跑業(yè)界,尤其在需要高階邏輯推理與數(shù)學(xué)解題的挑戰(zhàn)性任務(wù)中,凸顯出卓越的復(fù)雜問題解決能力。
視頻理解benchmar
Kwai Keye-VL 通過公開與自建評測雙驗(yàn)證,在學(xué)術(shù)標(biāo)準(zhǔn)與真實(shí)短視頻場景中均展現(xiàn)出全面領(lǐng)先優(yōu)勢。
為突破公開數(shù)據(jù)集的數(shù)據(jù)污染、語言覆蓋局限及任務(wù)單一性等問題,快手構(gòu)建了內(nèi)部評測集KC-MMBench。
結(jié)果顯示:該模型在VideoMME等權(quán)威公開Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)與InternVL-3-8B(65.5);在內(nèi)部短視頻場景評測中優(yōu)勢進(jìn)一步擴(kuò)大,綜合得分領(lǐng)先SOTA模型超10%,尤其在熱點(diǎn)聚合、內(nèi)容合集、廣告價值等核心場景表現(xiàn)卓越,實(shí)證其學(xué)術(shù)與產(chǎn)業(yè)雙維競爭力。
五、應(yīng)用案例
實(shí)際測試中,Kwai Keye在多種模態(tài)下均表現(xiàn)出驚艷的內(nèi)容理解與創(chuàng)作能力。
問題:請你為視頻中的商品寫一份推銷方案。
??視頻??
00:11
Kwai Keye-VL給出了一份推銷方案:
?
問題:結(jié)合如下這張圖片,寫一首詩
?
Kwai Keye-VL給出的詩詞:
六、未來展
六、未來展望
展望未來,依托快手在短視頻領(lǐng)域深厚的技術(shù)積累,Kwai Keye-VL 在視頻理解方面具備獨(dú)特優(yōu)勢。該模型的發(fā)布與開源,標(biāo)志著多模態(tài)大語言模型在視頻理解新紀(jì)元的探索邁出了堅(jiān)實(shí)一步。
