成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元 精華

發(fā)布于 2025-6-27 15:39
瀏覽
0收藏

導(dǎo)讀:近日,快手發(fā)布并開源其最新自研的多模態(tài)大語言模型 Kwai Keye-VL。Kwai Key-VL采用 VisionEncoder-Projector-LLM 架構(gòu),集成了文本、圖像、視頻信息的混合輸入處理能力,旨在為用戶帶來更智能、更全面的多模態(tài)交互體驗(yàn)。



如果有人突然問你:「這張圖片中有幾顆草莓」?你會如何快速回復(fù)?


面對五彩繽紛的果盤,我們往往需要反復(fù)端詳,放大圖片再逐一清點(diǎn),耗費(fèi)不少時間才能得到答案。


然而,AI大模型正讓這種復(fù)雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗(yàn)中,它自動解析圖像細(xì)節(jié),執(zhí)行圖像區(qū)域裁剪,放大相關(guān)的計(jì)算代碼以增強(qiáng)感知效果,在短短幾秒內(nèi)給出精準(zhǔn)答案,一共20顆。

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)


Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。該模型以 Qwen3-8B 語言模型為基礎(chǔ),引入了基于開源 SigLIP 初始化的 VisionEncoder,Kwai Keye-VL 能夠深度融合并處理文本、圖像、視頻等多模態(tài)信息,憑借其創(chuàng)新的自適應(yīng)交互機(jī)制與動態(tài)推理能力,旨在為用戶提供更智能、全面的多模態(tài)交互體驗(yàn)。在視覺理解與邏輯推理能力方面,Kwai Keye-VL 的綜合感知能力媲美同規(guī)模頂尖模型,并在復(fù)雜推理任務(wù)中展現(xiàn)出顯著優(yōu)勢!值得一提的是,其在邏輯推理上的優(yōu)異表現(xiàn):在最新的2025年高考全國數(shù)學(xué)卷中取得了140分的成績。目前,Kwai Keye-VL 已正式開源。

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

[?? Homepage] : ??https://kwai-keye.github.io/??

[??Github Repo] :???https://github.com/Kwai-Keye/Keye??

 [?? Model Weight] :???https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview??

 [??KC-MMBench] :???https://huggingface.co/datasets/Kwai-Keye/KC-MMbench??


「核心技術(shù)架構(gòu)全公開」

?

Kwai Keye-VL 基于 Qwen3-8B 語言模型,并整合了 SigLIP 初始化的視覺編碼器。Kwai Keye-VL 支持動態(tài)分辨率輸入,按原始比例將圖像切分為 14x14  patch 序列,由一個 MLP 層將視覺 Token 進(jìn)行映射與合并。模型采用 3D RoPE (旋轉(zhuǎn)位置編碼)統(tǒng)一處理文本、圖像和視頻,并通過位置編碼與時間戳對齊,精準(zhǔn)捕捉視頻時序變化。

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

一、Pre-Train:構(gòu)建多模態(tài)基座能力

一、Pre-Train:構(gòu)建多模態(tài)基座能力

Kwai Keye-VL 的預(yù)訓(xùn)練階段核心目標(biāo)是構(gòu)建強(qiáng)大的圖文和視頻理解能力(即視覺-語言對齊)。為支撐這一目標(biāo),模型使用了總量高達(dá) 600B 的大規(guī)模多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集,包含圖文、視頻及純文本數(shù)據(jù)。此外,Kwai Keye-VL 通過自建高質(zhì)量中文 OCR 系統(tǒng)和精細(xì)化描述數(shù)據(jù),有效突破了開源數(shù)據(jù)的局限,專門服務(wù)于模型圖文/視頻理解能力的訓(xùn)練。


訓(xùn)練流程采用四階段漸進(jìn)式優(yōu)化策略:

?

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)


  • 視覺預(yù)訓(xùn)練:持續(xù)預(yù)訓(xùn)練視覺編碼器,使其適配內(nèi)部數(shù)據(jù)分布并支持動態(tài)分辨率輸入。
  • 跨模態(tài)對齊:凍結(jié)主干模型,僅訓(xùn)練輕量級 MLP 適配器,以極低成本高效建立魯棒的圖文/視頻-文本對齊關(guān)系。
  • 多任務(wù)預(yù)訓(xùn)練:解鎖全部模型參數(shù),進(jìn)行多任務(wù)聯(lián)合訓(xùn)練,全面提升模型的綜合視覺理解能力。
  • 退火訓(xùn)練:使用精選高質(zhì)量數(shù)據(jù)進(jìn)行精調(diào),進(jìn)一步提升模型的精細(xì)理解和判別能力。

最后,Kwai Keye-VL 探索了同構(gòu)異質(zhì)融合技術(shù),通過參數(shù)平均融合不同數(shù)據(jù)配比的退火訓(xùn)練模型,在保留多維度能力的同時,減小模型偏差,增強(qiáng)了模型的魯棒性。

?

二、Post-Train:兩階段精細(xì)微調(diào),突破性強(qiáng)化推理能力

?

Kwai Keye-VL 的后訓(xùn)練階段經(jīng)過精心設(shè)計(jì),旨在全面提升模型的性能,尤其是其在復(fù)雜任務(wù)中的推理能力,這一部分是模型實(shí)現(xiàn)高級認(rèn)知功能的關(guān)鍵突破。

Stage I. 非推理訓(xùn)練 (No-Reasoning Training):夯實(shí)基礎(chǔ)性能

Kwai Keye-VL 首先進(jìn)行監(jiān)督精調(diào) (SFT),使用 500 萬條高質(zhì)量多模態(tài)VQA數(shù)據(jù),數(shù)據(jù)多樣性由自研TaskGalaxy方案建立的任務(wù)體系(包含7W種任務(wù))保證,數(shù)據(jù)質(zhì)量經(jīng)AI 篩選困難樣本及人工標(biāo)注保障。


隨后進(jìn)行混合偏好優(yōu)化 (MPO),結(jié)合開源數(shù)據(jù)與自建的偏好數(shù)據(jù),后者通過收集 SFT 錯誤樣本作提問素材、Qwen2.5VL 72B 與 SFT 模型生成答案對、人工排序獲得。

?

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)


Stage II. 推理訓(xùn)練 (Reasoning Training):核心突破,賦能復(fù)雜認(rèn)知

此階段是 Kwai Keye-VL 訓(xùn)練流程的最大亮點(diǎn)與貢獻(xiàn),通過引入Mix-mode的思維鏈(CoT)和多思考模式強(qiáng)化學(xué)習(xí)(RL)機(jī)制,顯著提升模型的多模態(tài)感知、推理和think with image能力,使其能夠處理更復(fù)雜、需要多步思考的任務(wù)。


具體來說:

Step 1 :思維鏈冷啟動階段(CoT Cold-Start):通過混合四種推理模式的訓(xùn)練數(shù)據(jù)(非推理數(shù)據(jù)、推理數(shù)據(jù) 、自動推理數(shù)據(jù) 和智能體 (agentic) 推理數(shù)據(jù)),實(shí)現(xiàn)對模型思維鏈能力的零基礎(chǔ)激活,使其初步掌握人類分步思考的推理范式。

Step 2:混合強(qiáng)化學(xué)習(xí)階段(CoT-Mix RL):在冷啟動基礎(chǔ)上,采用GRPO算法進(jìn)行混合模式強(qiáng)化學(xué)習(xí),通過創(chuàng)新的雙軌獎勵機(jī)制(同步評估結(jié)果正確性與過程一致性)深度優(yōu)化多模態(tài)感知、數(shù)學(xué)推理、短視頻理解及智能體協(xié)同等綜合能力,顯著提升模型的推理能力。

Step 3:多輪迭代對齊階段(Iterative Alignment): 利用MPO算法對優(yōu)/劣數(shù)據(jù)對進(jìn)行多輪迭代,根治內(nèi)容重復(fù)崩潰與邏輯斷層問題,最終賦予模型根據(jù)問題復(fù)雜度智能選擇深度推理模式的自適應(yīng)能力,實(shí)現(xiàn)性能與穩(wěn)定性的雙重突破。

?

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

?

Kwai Keye-VL 通過分階段、精細(xì)化的預(yù)訓(xùn)練與后訓(xùn)練策略,特別是對推理能力的深度強(qiáng)化與創(chuàng)新性突破,確保了模型在多種復(fù)雜場景下都能提供高質(zhì)量、邏輯嚴(yán)謹(jǐn)且穩(wěn)定的輸出。

三、訓(xùn)練架構(gòu)優(yōu)化:高效穩(wěn)定的千億參數(shù)模型訓(xùn)練


為實(shí)現(xiàn)百億參數(shù)模型的高效穩(wěn)定訓(xùn)練,Kwai Keye-VL 通過混合并行策略(整合數(shù)據(jù)并行/序列并行/ZeRO技術(shù))顯著提升訓(xùn)練吞吐量,既利用顯存分片降低壓力,又通過計(jì)算通信重疊隱藏延遲。


不同于純文本模型訓(xùn)練,多模態(tài)輸入分辨率差異很大,不同顯卡計(jì)算負(fù)載不均會導(dǎo)致整體利用率降低,Kwai Keye-VL在訓(xùn)練框架中實(shí)現(xiàn)了全局負(fù)載均衡策略,依據(jù)樣本FLOPS動態(tài)分發(fā)樣本,盡可能消除硬件閑置,顯著提高了多模態(tài)訓(xùn)練的MFU。同時構(gòu)建了樣本級自動容錯機(jī)制,依托聯(lián)合檢查點(diǎn)技術(shù)使訓(xùn)練意外中斷后可自動精準(zhǔn)續(xù)訓(xùn),保證了模型迭代的穩(wěn)定性。


后訓(xùn)練階段則通過升級vLLM框架加速采樣,并部署多獎勵模型隨機(jī)分發(fā)策略,大幅壓縮強(qiáng)化學(xué)習(xí)的計(jì)算耗時,系統(tǒng)性保障了大規(guī)模訓(xùn)練的穩(wěn)定性與效率。

?

四、模型評估


視覺理解/邏輯推理benchmark


Kwai Keye-VL 在綜合感知能力比肩同規(guī)模頂尖模型的同時,在復(fù)雜推理任務(wù)中展現(xiàn)出顯著領(lǐng)先優(yōu)勢。


評測數(shù)據(jù)顯示:其基礎(chǔ)感知達(dá)行業(yè)一流水準(zhǔn);而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,該模型性能曲線大幅領(lǐng)跑業(yè)界,尤其在需要高階邏輯推理與數(shù)學(xué)解題的挑戰(zhàn)性任務(wù)中,凸顯出卓越的復(fù)雜問題解決能力。

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)


視頻理解benchmar

Kwai Keye-VL 通過公開與自建評測雙驗(yàn)證,在學(xué)術(shù)標(biāo)準(zhǔn)與真實(shí)短視頻場景中均展現(xiàn)出全面領(lǐng)先優(yōu)勢。


為突破公開數(shù)據(jù)集的數(shù)據(jù)污染、語言覆蓋局限及任務(wù)單一性等問題,快手構(gòu)建了內(nèi)部評測集KC-MMBench。


結(jié)果顯示:該模型在VideoMME等權(quán)威公開Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)與InternVL-3-8B(65.5);在內(nèi)部短視頻場景評測中優(yōu)勢進(jìn)一步擴(kuò)大,綜合得分領(lǐng)先SOTA模型超10%,尤其在熱點(diǎn)聚合、內(nèi)容合集、廣告價值等核心場景表現(xiàn)卓越,實(shí)證其學(xué)術(shù)與產(chǎn)業(yè)雙維競爭力。

五、應(yīng)用案例


實(shí)際測試中,Kwai Keye在多種模態(tài)下均表現(xiàn)出驚艷的內(nèi)容理解與創(chuàng)作能力。


問題:請你為視頻中的商品寫一份推銷方案。


??視頻??

00:11

Kwai Keye-VL給出了一份推銷方案:

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

?

問題:結(jié)合如下這張圖片,寫一首詩

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

?

Kwai Keye-VL給出的詩詞:

六、未來展

快手開源多模態(tài)大模型Kwai Keye-VL,引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)


六、未來展望

展望未來,依托快手在短視頻領(lǐng)域深厚的技術(shù)積累,Kwai Keye-VL 在視頻理解方面具備獨(dú)特優(yōu)勢。該模型的發(fā)布與開源,標(biāo)志著多模態(tài)大語言模型在視頻理解新紀(jì)元的探索邁出了堅(jiān)實(shí)一步。


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲国产欧美91 | 综合国产| 成人av免费| 一级黄色影片在线观看 | 亚洲福利 | 日本黄色的视频 | 国产精品久久9 | 97av视频在线观看 | 成人黄色电影在线观看 | 日韩av电影院 | 成人福利视频网站 | 成人一级视频在线观看 | 奇米影视在线 | 国产高清在线观看 | 日韩一区二区三区视频 | 涩涩视频网站在线观看 | 国产999精品久久久久久绿帽 | 亚洲视频在线一区 | 欧美一二区 | 99热播精品 | 久久久久久久国产精品视频 | 精品九九久久 | 91视频18| 国产激情免费视频 | 亚洲视频在线观看免费 | 日韩靠逼 | av入口 | av天天澡天天爽天天av | 特黄特色大片免费视频观看 | 黄色精品 | 亚洲免费观看视频 | 欧美在线播放一区 | 黄色免费网址大全 | 国产高清在线观看 | 免费国产网站 | 国产91丝袜在线播放 | 亚洲一区在线播放 | 久久手机在线视频 | 国内精品视频在线观看 | 欧美日韩久 | 免费成人高清 |