成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI秒懂短視頻,快手大模型Keye-VL理解力爆表!技術細節(jié)全開源

人工智能 新聞
全新多模態(tài)大語言模型Kwai Keye-VL震撼上線,展現了無與倫比的視頻理解力!它能將視頻內容轉化為高能方案,還會智能選擇思考模型,效率與創(chuàng)意兼得。目前,模型已正式開源。

如果有人突然問你:「這張圖片中有幾顆草莓」?你會如何快速回復?

面對五彩繽紛的果盤,我們往往需要反復端詳,放大圖片再逐一清點,耗費不少時間才能得到答案。

然而,AI大模型正讓這種復雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗中,它自動解析圖像細節(jié),執(zhí)行圖像區(qū)域裁剪,放大相關的計算代碼以增強感知效果,在短短幾秒內給出精準答案,一共20顆。

圖片

Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。

該模型能深度融合和處理文本、圖像、視頻等多模態(tài)信息,憑借創(chuàng)新的自適應交互機制與動態(tài)推理能力,致力于為用戶打造更智能、更全面的多模態(tài)交互新范式。

其中,依托快手在短視頻的深厚技術積累,Keye-VL在視頻理解方面具備得天獨厚的優(yōu)勢。

實踐出真知!現在就把一個介紹簡易移動房子的視頻丟給Keye-VL,考考它能不能利用強大的視頻理解和推理能力,當場做出一份銷售方案來。

問題:請你為視頻中的商品寫一份推銷方案。

「看」完11秒的視頻后,Kwai Keye-VL很快便生成了一份推銷方案,覆蓋了方方面面,足以堪稱商品推銷的「優(yōu)秀模板」。

圖片

除在復雜視覺感知、視頻理解上的優(yōu)異表現外,Kwai Keye-VL在邏輯推理上也同樣令人驚喜,在最新的2025高考全國數學卷中,Kwai Keye-VL狂砍140分。

目前,Kwai Keye-VL已正式開源!

圖片

Homepage: https://kwai-keye.github.io/

Github Repo: https://github.com/Kwai-Keye/Keye

Model Weight: https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview

KC-MMBench: https://huggingface.co/datasets/Kwai-Keye/KC-MMbench

接下來,讓我們一起探索支撐其強大多模態(tài)能力的關鍵技術突破。

核心技術架構公開

Kwai Keye-VL基于Qwen3-8B語言模型,并整合了SigLIP初始化的視覺編碼器。

它支持動態(tài)分辨率輸入,按原始比例將圖像切分為14x14分塊,由一個MLP層整合這些視覺特征。

模型采用3D RoPE(旋轉位置編碼)統(tǒng)一處理文本、圖像和視頻,并通過位置編碼與時間戳對齊,精準捕捉視頻時序變化。

圖片

Pre-Train:構建多模態(tài)基座能力

Kwai Keye-VL的預訓練階段核心目標是,構建強大的圖文和視頻理解能力(即視覺-語言對齊)。

為支撐這一目標,模型使用了總量高達600B的大規(guī)模多模態(tài)預訓練數據集,包含圖文、視頻及純文本數據。

此外,Kwai Keye-VL通過自建高質量中文OCR系統(tǒng)和精細化描述數據,有效突破了開源數據的局限,專門服務于模型圖文/視頻理解能力的訓練。

訓練流程采用四階段漸進式優(yōu)化策略:

圖片

  • 視覺預訓練: 持續(xù)預訓練視覺編碼器,使其適配內部數據分布并支持動態(tài)分辨率輸入。
  • 跨模態(tài)對齊: 凍結主干模型,僅訓練輕量級MLP適配器,以極低成本高效建立魯棒的圖文/視頻-文本對齊關系。
  • 多任務預訓練: 解鎖全部模型參數,進行多任務聯合訓練,全面提升模型的綜合視覺理解能力。
  • 退火訓練: 使用精選高質量數據進行精調,進一步提升模型的精細理解和判別能力。

最后,Kwai Keye-VL探索了同構異質融合技術,通過參數平均融合不同數據配比的退火訓練模型,在保留多維度能力的同時,減小模型偏差,增強了模型的魯棒性。

Post-Train:兩階段精細微調,突破性強化推理能力

Kwai Keye-VL的后訓練階段經過精心設計,旨在全面提升模型的性能,尤其是其在復雜任務中的推理能力,這一部分是模型實現高級認知功能的關鍵突破。

Stage I. 非推理訓練(No-Reasoning Training):夯實基礎性能

Kwai Keye-VL首先進行監(jiān)督微調(SFT),使用500萬條高質量多模態(tài)VQA數據,數據多樣性由自研TaskGalaxy方案建立的任務體系(包含7W種任務)保證,數據質量經AI篩選困難樣本及人工標注保障;

隨后進行混合偏好優(yōu)化(MPO),結合開源數據與自建的偏好數據,后者通過收集SFT錯誤樣本作提問素材、Qwen2.5VL 72B與SFT模型生成答案對、人工排序獲得。

圖片

Stage II. 推理訓練(Reasoning Training):核心突破,賦能復雜認知

此階段是Kwai Keye-VL訓練流程的最大亮點與貢獻,通過引入Mix-mode的思維鏈(CoT)和多思考模式強化學習(RL)機制,顯著提升模型的多模態(tài)感知、推理和think with image能力,使其能夠處理更復雜、需要多步思考的任務。

思維鏈冷啟動階段(CoT Cold-Start) 通過混合四種推理模式的訓練數據,實現對模型思維鏈能力的零基礎激活,使其初步掌握人類分步思考的推理范式。

混合強化學習階段(CoT-Mix RL) 在冷啟動基礎上,采用GRPO算法進行混合模式強化學習,通過創(chuàng)新的雙軌獎勵機制(同步評估結果正確性與過程一致性)深度優(yōu)化多模態(tài)感知、數學推理、短視頻理解及智能體協(xié)同等綜合能力,顯著提升模型的推理能力。

多輪迭代對齊階段(Iterative Alignment) 利用MPO算法對優(yōu)劣數據對進行多輪迭代,根治內容重復崩潰與邏輯斷層問題,最終賦予模型根據問題復雜度智能選擇深度推理模式的自適應能力,實現性能與穩(wěn)定性的雙重突破。

Kwai Keye-VL通過分階段、精細化的預訓練與后訓練策略,特別是對推理能力的深度強化與創(chuàng)新性突破,確保了模型在多種復雜場景下都能提供高質量、邏輯嚴謹且穩(wěn)定的輸出。

訓練架構優(yōu)化:高效穩(wěn)定的百億參數模型訓練

為實現百億參數模型的高效穩(wěn)定訓練,Kwai Keye-VL通過混合并行策略(整合數據并行/序列并行/ZeRO技術)顯著提升訓練吞吐量,既利用顯存分片降低壓力,又通過計算通信重疊隱藏延遲。

不同于純文本模型訓練,多模態(tài)輸入分辨率差異很大,不同顯卡計算負載不均會導致整體利用率降低,Kwai Keye-VL在訓練框架中實現了全局負載均衡策略,依據樣本FLOPS動態(tài)分發(fā)樣本,盡可能消除硬件閑置,顯著提高了多模態(tài)訓練的MFU。創(chuàng)新性構建樣本級自動容錯機制,依托聯合檢查點技術使訓練意外中斷后可自動精準續(xù)訓無需人工介入。

后訓練階段通過升級vLLM框架加速采樣,并部署多獎勵模型隨機分發(fā)策略,大幅壓縮強化學習的計算耗時,系統(tǒng)性保障了大規(guī)模訓練的穩(wěn)定性與效率。

模型評估

· 視覺理解/邏輯推理Benchmark

Kwai Keye-VL在綜合感知能力比肩同規(guī)模頂尖模型的同時,在復雜推理任務中展現出顯著領先優(yōu)勢。

評測數據顯示:其基礎感知達行業(yè)一流水準;而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,該模型性能曲線大幅領跑業(yè)界,尤其在需要高階邏輯推理與數學解題的挑戰(zhàn)性任務中,凸顯出卓越的復雜問題解決能力。

圖片

· 視頻理解Benchmark

Kwai Keye-VL通過公開與自建評測雙驗證,在學術標準與真實短視頻場景中均展現出全面領先優(yōu)勢。

為突破公開數據集的數據污染、語言覆蓋局限及任務單一性等問題,快手構建了內部評測集KC-MMBench。

結果顯示,該模型在VideoMME等權威公開Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)與InternVL-3-8B(65.5);在內部短視頻場景評測中優(yōu)勢進一步擴大,綜合得分領先SOTA模型超10%,尤其在熱點聚合、內容合集、廣告價值等核心場景表現卓越,實證其學術與產業(yè)雙維競爭力。

圖片

當大模型的風暴席卷交互的疆界,重塑我們認知與交互的方式,Kwai Keye-VL——這顆由快手精心鍛造的視覺-語言「智能火種」,正在視頻理解的沃土上,燃起一場顛覆性的燎原之火!

這亦是Keye注入時代的核心動能,一場始于理解、終于交互的智能覺醒!

此刻,就讓我們以一首詩,為這段探索的華章作結,跟隨Keye的視角,感受智能之眼所洞見的壯闊未來……

提問:結合如下這張圖片,寫一首詩

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-20 22:02:54

開源模型

2024-01-24 13:17:00

AI技術

2020-04-03 09:05:43

麻將 AI Suphx神經網絡

2021-06-09 15:52:36

快手短視頻

2023-06-25 10:19:49

模型論文

2021-06-11 21:46:31

RocketMQ數據JSON

2015-04-13 10:12:08

Windows容器技術Nano Server

2022-12-07 09:49:34

AI模型

2024-01-16 17:17:30

模型訓練

2018-12-17 16:34:02

華為云

2014-05-29 09:34:25

2024-04-25 17:07:33

無源光網絡PON接入網技術

2024-02-05 08:41:08

因果推斷快手短視頻應用

2019-05-13 08:51:53

總監(jiān)技術CTO

2019-05-06 10:51:49

總監(jiān)技術場景

2023-05-08 07:20:22

Doris分析型數據庫

2013-06-26 09:42:25

技術服務器內存虛擬化

2017-11-10 08:35:06

存儲FCoE網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕在线精品 | 中文成人在线 | www.亚洲一区二区三区 | 国产精品视频 | 婷婷久久网 | 夜夜爽99久久国产综合精品女不卡 | 老司机深夜福利网站 | 嫩草视频网站 | 国产精品亚洲综合 | 日本不卡一区二区三区在线观看 | 国产情侣一区 | 91就要激情 | 免费黄色片视频 | 亚洲国产成人精品女人久久久野战 | 欧美精品成人影院 | 久久免费资源 | 亚洲天天干 | 4h影视 | 日韩欧美在线播放 | 欧美a在线| 欧美精品在线看 | 在线看成人av | 人人人人干 | 欧美 日韩 国产 成人 在线 | 亚洲国产中文字幕 | 黄色永久免费 | 男人的天堂久久 | 国产精品亚洲一区二区三区在线观看 | 国产精品不卡一区 | 国产在线一区二区 | 国产婷婷精品 | 日韩精品在线看 | 欧美成人手机在线 | 中文字幕一区二区三区四区不卡 | 精品国产一区二区三区日日嗨 | 欧美视频第二页 | ririsao久久精品一区 | 99国内精品久久久久久久 | 激情小视频 | 精品国产1区2区3区 一区二区手机在线 | 欧美激情a∨在线视频播放 成人免费共享视频 |