成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="06wyg"><input id="06wyg"></input></center>

<li id="06wyg"></li>

<abbr id="06wyg"></abbr>

<rt id="06wyg"><acronym id="06wyg"></acronym></rt>

<code id="06wyg"><tr id="06wyg"></tr></code>

<button id="06wyg"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元精華

快手技術(shù)

發(fā)布于 2025-6-27 15:39

瀏覽

0收藏

導(dǎo)讀：近日，快手發(fā)布并開源其最新自研的多模態(tài)大語言模型 Kwai Keye-VL。Kwai Key-VL采用 VisionEncoder-Projector-LLM 架構(gòu)，集成了文本、圖像、視頻信息的混合輸入處理能力，旨在為用戶帶來更智能、更全面的多模態(tài)交互體驗(yàn)。

如果有人突然問你：「這張圖片中有幾顆草莓」？你會如何快速回復(fù)？

面對五彩繽紛的果盤，我們往往需要反復(fù)端詳，放大圖片再逐一清點(diǎn)，耗費(fèi)不少時間才能得到答案。

然而，AI大模型正讓這種復(fù)雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗(yàn)中，它自動解析圖像細(xì)節(jié)，執(zhí)行圖像區(qū)域裁剪，放大相關(guān)的計(jì)算代碼以增強(qiáng)感知效果，在短短幾秒內(nèi)給出精準(zhǔn)答案，一共20顆。

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。該模型以 Qwen3-8B 語言模型為基礎(chǔ)，引入了基于開源 SigLIP 初始化的 VisionEncoder，Kwai Keye-VL 能夠深度融合并處理文本、圖像、視頻等多模態(tài)信息，憑借其創(chuàng)新的自適應(yīng)交互機(jī)制與動態(tài)推理能力，旨在為用戶提供更智能、全面的多模態(tài)交互體驗(yàn)。在視覺理解與邏輯推理能力方面，Kwai Keye-VL 的綜合感知能力媲美同規(guī)模頂尖模型，并在復(fù)雜推理任務(wù)中展現(xiàn)出顯著優(yōu)勢！值得一提的是，其在邏輯推理上的優(yōu)異表現(xiàn)：在最新的2025年高考全國數(shù)學(xué)卷中取得了140分的成績。目前，Kwai Keye-VL 已正式開源。

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

[?? Homepage] : ??https://kwai-keye.github.io/??

[??Github Repo] ：???https://github.com/Kwai-Keye/Keye??

[?? Model Weight] ：???https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview??

[??KC-MMBench] ：???https://huggingface.co/datasets/Kwai-Keye/KC-MMbench??

「核心技術(shù)架構(gòu)全公開」

?

Kwai Keye-VL 基于 Qwen3-8B 語言模型，并整合了 SigLIP 初始化的視覺編碼器。Kwai Keye-VL 支持動態(tài)分辨率輸入，按原始比例將圖像切分為 14x14 patch 序列，由一個 MLP 層將視覺 Token 進(jìn)行映射與合并。模型采用 3D RoPE （旋轉(zhuǎn)位置編碼）統(tǒng)一處理文本、圖像和視頻，并通過位置編碼與時間戳對齊，精準(zhǔn)捕捉視頻時序變化。

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

一、Pre-Train：構(gòu)建多模態(tài)基座能力

一、Pre-Train：構(gòu)建多模態(tài)基座能力

Kwai Keye-VL 的預(yù)訓(xùn)練階段核心目標(biāo)是構(gòu)建強(qiáng)大的圖文和視頻理解能力（即視覺-語言對齊）。為支撐這一目標(biāo)，模型使用了總量高達(dá) 600B 的大規(guī)模多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集，包含圖文、視頻及純文本數(shù)據(jù)。此外，Kwai Keye-VL 通過自建高質(zhì)量中文 OCR 系統(tǒng)和精細(xì)化描述數(shù)據(jù)，有效突破了開源數(shù)據(jù)的局限，專門服務(wù)于模型圖文/視頻理解能力的訓(xùn)練。

訓(xùn)練流程采用四階段漸進(jìn)式優(yōu)化策略：

?

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

視覺預(yù)訓(xùn)練：持續(xù)預(yù)訓(xùn)練視覺編碼器，使其適配內(nèi)部數(shù)據(jù)分布并支持動態(tài)分辨率輸入。
跨模態(tài)對齊：凍結(jié)主干模型，僅訓(xùn)練輕量級 MLP 適配器，以極低成本高效建立魯棒的圖文/視頻-文本對齊關(guān)系。
多任務(wù)預(yù)訓(xùn)練：解鎖全部模型參數(shù)，進(jìn)行多任務(wù)聯(lián)合訓(xùn)練，全面提升模型的綜合視覺理解能力。
退火訓(xùn)練：使用精選高質(zhì)量數(shù)據(jù)進(jìn)行精調(diào)，進(jìn)一步提升模型的精細(xì)理解和判別能力。

最后，Kwai Keye-VL 探索了同構(gòu)異質(zhì)融合技術(shù)，通過參數(shù)平均融合不同數(shù)據(jù)配比的退火訓(xùn)練模型，在保留多維度能力的同時，減小模型偏差，增強(qiáng)了模型的魯棒性。

?

二、Post-Train：兩階段精細(xì)微調(diào)，突破性強(qiáng)化推理能力

?

Kwai Keye-VL 的后訓(xùn)練階段經(jīng)過精心設(shè)計(jì)，旨在全面提升模型的性能，尤其是其在復(fù)雜任務(wù)中的推理能力，這一部分是模型實(shí)現(xiàn)高級認(rèn)知功能的關(guān)鍵突破。

Stage I. 非推理訓(xùn)練 (No-Reasoning Training)：夯實(shí)基礎(chǔ)性能

Kwai Keye-VL 首先進(jìn)行監(jiān)督精調(diào) (SFT)，使用 500 萬條高質(zhì)量多模態(tài)VQA數(shù)據(jù)，數(shù)據(jù)多樣性由自研TaskGalaxy方案建立的任務(wù)體系（包含7W種任務(wù)）保證，數(shù)據(jù)質(zhì)量經(jīng)AI 篩選困難樣本及人工標(biāo)注保障。

隨后進(jìn)行混合偏好優(yōu)化 (MPO)，結(jié)合開源數(shù)據(jù)與自建的偏好數(shù)據(jù)，后者通過收集 SFT 錯誤樣本作提問素材、Qwen2.5VL 72B 與 SFT 模型生成答案對、人工排序獲得。

?

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

Stage II. 推理訓(xùn)練 (Reasoning Training)：核心突破，賦能復(fù)雜認(rèn)知

此階段是 Kwai Keye-VL 訓(xùn)練流程的最大亮點(diǎn)與貢獻(xiàn)，通過引入Mix-mode的思維鏈（CoT）和多思考模式強(qiáng)化學(xué)習(xí)（RL）機(jī)制，顯著提升模型的多模態(tài)感知、推理和think with image能力，使其能夠處理更復(fù)雜、需要多步思考的任務(wù)。

具體來說：

Step 1 ：思維鏈冷啟動階段（CoT Cold-Start）：通過混合四種推理模式的訓(xùn)練數(shù)據(jù)（非推理數(shù)據(jù)、推理數(shù)據(jù) 、自動推理數(shù)據(jù) 和智能體 (agentic) 推理數(shù)據(jù)），實(shí)現(xiàn)對模型思維鏈能力的零基礎(chǔ)激活，使其初步掌握人類分步思考的推理范式。

Step 2：混合強(qiáng)化學(xué)習(xí)階段（CoT-Mix RL）：在冷啟動基礎(chǔ)上，采用GRPO算法進(jìn)行混合模式強(qiáng)化學(xué)習(xí)，通過創(chuàng)新的雙軌獎勵機(jī)制（同步評估結(jié)果正確性與過程一致性）深度優(yōu)化多模態(tài)感知、數(shù)學(xué)推理、短視頻理解及智能體協(xié)同等綜合能力，顯著提升模型的推理能力。

Step 3：多輪迭代對齊階段（Iterative Alignment）：利用MPO算法對優(yōu)/劣數(shù)據(jù)對進(jìn)行多輪迭代，根治內(nèi)容重復(fù)崩潰與邏輯斷層問題，最終賦予模型根據(jù)問題復(fù)雜度智能選擇深度推理模式的自適應(yīng)能力，實(shí)現(xiàn)性能與穩(wěn)定性的雙重突破。

?

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

?

Kwai Keye-VL 通過分階段、精細(xì)化的預(yù)訓(xùn)練與后訓(xùn)練策略，特別是對推理能力的深度強(qiáng)化與創(chuàng)新性突破，確保了模型在多種復(fù)雜場景下都能提供高質(zhì)量、邏輯嚴(yán)謹(jǐn)且穩(wěn)定的輸出。

三、訓(xùn)練架構(gòu)優(yōu)化：高效穩(wěn)定的千億參數(shù)模型訓(xùn)練

為實(shí)現(xiàn)百億參數(shù)模型的高效穩(wěn)定訓(xùn)練，Kwai Keye-VL 通過混合并行策略（整合數(shù)據(jù)并行/序列并行/ZeRO技術(shù)）顯著提升訓(xùn)練吞吐量，既利用顯存分片降低壓力，又通過計(jì)算通信重疊隱藏延遲。

不同于純文本模型訓(xùn)練，多模態(tài)輸入分辨率差異很大，不同顯卡計(jì)算負(fù)載不均會導(dǎo)致整體利用率降低，Kwai Keye-VL在訓(xùn)練框架中實(shí)現(xiàn)了全局負(fù)載均衡策略，依據(jù)樣本FLOPS動態(tài)分發(fā)樣本，盡可能消除硬件閑置，顯著提高了多模態(tài)訓(xùn)練的MFU。同時構(gòu)建了樣本級自動容錯機(jī)制，依托聯(lián)合檢查點(diǎn)技術(shù)使訓(xùn)練意外中斷后可自動精準(zhǔn)續(xù)訓(xùn)，保證了模型迭代的穩(wěn)定性。

后訓(xùn)練階段則通過升級vLLM框架加速采樣，并部署多獎勵模型隨機(jī)分發(fā)策略，大幅壓縮強(qiáng)化學(xué)習(xí)的計(jì)算耗時，系統(tǒng)性保障了大規(guī)模訓(xùn)練的穩(wěn)定性與效率。

?

四、模型評估

視覺理解/邏輯推理benchmark

Kwai Keye-VL 在綜合感知能力比肩同規(guī)模頂尖模型的同時，在復(fù)雜推理任務(wù)中展現(xiàn)出顯著領(lǐng)先優(yōu)勢。

評測數(shù)據(jù)顯示：其基礎(chǔ)感知達(dá)行業(yè)一流水準(zhǔn)；而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上，該模型性能曲線大幅領(lǐng)跑業(yè)界，尤其在需要高階邏輯推理與數(shù)學(xué)解題的挑戰(zhàn)性任務(wù)中，凸顯出卓越的復(fù)雜問題解決能力。

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

視頻理解benchmar

Kwai Keye-VL 通過公開與自建評測雙驗(yàn)證，在學(xué)術(shù)標(biāo)準(zhǔn)與真實(shí)短視頻場景中均展現(xiàn)出全面領(lǐng)先優(yōu)勢。

為突破公開數(shù)據(jù)集的數(shù)據(jù)污染、語言覆蓋局限及任務(wù)單一性等問題，快手構(gòu)建了內(nèi)部評測集KC-MMBench。

結(jié)果顯示：該模型在VideoMME等權(quán)威公開Benchmark中以67.4分超越Qwen2.5-VL-7B（62.7）與InternVL-3-8B（65.5）；在內(nèi)部短視頻場景評測中優(yōu)勢進(jìn)一步擴(kuò)大，綜合得分領(lǐng)先SOTA模型超10%，尤其在熱點(diǎn)聚合、內(nèi)容合集、廣告價值等核心場景表現(xiàn)卓越，實(shí)證其學(xué)術(shù)與產(chǎn)業(yè)雙維競爭力。

五、應(yīng)用案例

實(shí)際測試中，Kwai Keye在多種模態(tài)下均表現(xiàn)出驚艷的內(nèi)容理解與創(chuàng)作能力。

問題：請你為視頻中的商品寫一份推銷方案。

00:11

Kwai Keye-VL給出了一份推銷方案：

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

?

問題：結(jié)合如下這張圖片，寫一首詩

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

?

Kwai Keye-VL給出的詩詞：

六、未來展

快手開源多模態(tài)大模型Kwai Keye-VL，引領(lǐng)視頻理解新紀(jì)元-AI.x社區(qū)

六、未來展望

展望未來，依托快手在短視頻領(lǐng)域深厚的技術(shù)積累，Kwai Keye-VL 在視頻理解方面具備獨(dú)特優(yōu)勢。該模型的發(fā)布與開源，標(biāo)志著多模態(tài)大語言模型在視頻理解新紀(jì)元的探索邁出了堅(jiān)實(shí)一步。

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

革新GUI自動化：V-Zen模型引領(lǐng)多模態(tài)語言模型新紀(jì)元

AI論文解讀 ? 3287瀏覽 ? 0回復(fù)
手機(jī)流暢運(yùn)行470億大模型：上交大提出PowerInfer-2引領(lǐng)智能手機(jī)大模型推理新紀(jì)元

AI論文解讀 ? 4946瀏覽 ? 0回復(fù)
Google推出開源代碼大模型CodeGemma：AI編程新紀(jì)元，代碼自動完成和生成技術(shù)再升級

AI論文解讀 ? 3448瀏覽 ? 0回復(fù)
AI首次實(shí)時生成視頻！尤洋團(tuán)隊(duì)新作，網(wǎng)友：這是新紀(jì)元

angel ? 3061瀏覽 ? 0回復(fù)
ECCV2024｜LightenDiffusion 超越現(xiàn)有無監(jiān)督方法，引領(lǐng)低光圖像增強(qiáng)新紀(jì)元！

angel ? 4623瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 4580瀏覽 ? 0回復(fù)
mPLUG-DocOwl2:新模型無需OCR，多頁文檔理解邁入新紀(jì)元

AI論文解讀 ? 3681瀏覽 ? 0回復(fù)
多模態(tài)-故障診斷 | 大核卷積開啟視覺新紀(jì)元!

Tang_Lan ? 4241瀏覽 ? 0回復(fù)
VideoLLaMB：創(chuàng)新開源框架，引領(lǐng)多模態(tài)長視頻理解

穿越時空111 ? 2636瀏覽 ? 0回復(fù)
多模態(tài)-故障診斷 | 大核卷積開啟視覺新紀(jì)元!

Tang_Lan ? 3018瀏覽 ? 0回復(fù)
Emu3：開啟多模態(tài)人工智能新紀(jì)元 —— 視頻、圖像、文本三合一模型

穿越時空111 ? 2761瀏覽 ? 0回復(fù)
智能對話新紀(jì)元：大模型推理服務(wù)

AI論文解讀 ? 2162瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 9727瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 3476瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 3614瀏覽 ? 0回復(fù)
Meta AI 發(fā)布 Apollo：視頻理解的新家族——LMM 大型多模態(tài)模型

Halo咯咯 ? 2443瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2667瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 2162瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 5143瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語言處理 ? 1699瀏覽 ? 0回復(fù)

快手技術(shù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

節(jié)省前端1000+pd人力成本！快手快聘「伏羲工作臺」技術(shù)實(shí)踐全解析 3h前發(fā)布
快手商業(yè)化風(fēng)控內(nèi)容審核場景下的大模型早期探索與應(yīng)用 2天前發(fā)布

熱門推薦

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

上一篇：快手商業(yè)化風(fēng)控內(nèi)容審核場景下的大模型早期探索與應(yīng)用

下一篇：節(jié)省前端1000+pd人力成本！快手快聘「伏羲工作臺」技術(shù)實(shí)踐全解析

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：亚洲国产欧美91 | 综合国产| 成人av免费| 一级黄色影片在线观看 | 亚洲福利 | 日本黄色的视频 | 国产精品久久9 | 97av视频在线观看 | 成人黄色电影在线观看 | 日韩av电影院 | 成人福利视频网站 | 成人一级视频在线观看 | 奇米影视在线 | 国产高清在线观看 | 日韩一区二区三区视频 | 涩涩视频网站在线观看 | 国产999精品久久久久久绿帽 | 亚洲视频在线一区 | 欧美一二区 | 99热播精品 | 久久久久久久国产精品视频 | 精品九九久久 | 91视频18| 国产激情免费视频 | 亚洲视频在线观看免费 | 日韩靠逼 | av入口 | av天天澡天天爽天天av | 特黄特色大片免费视频观看 | 黄色精品 | 亚洲免费观看视频 | 欧美在线播放一区 | 黄色免费网址大全 | 国产高清在线观看 | 免费国产网站 | 国产91丝袜在线播放 | 亚洲一区在线播放 | 久久手机在线视频 | 国内精品视频在线观看 | 欧美日韩久 | 免费成人高清 |

<li id="cem8g"></li>

<tfoot id="cem8g"><delect id="cem8g"></delect></tfoot>

<samp id="cem8g"><tbody id="cem8g"></tbody></samp>

<li id="cem8g"><source id="cem8g"></source></li>

<tfoot id="cem8g"></tfoot><button id="cem8g"></button>

<li id="cem8g"><dl id="cem8g"></dl></li>