成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Moonshot AI開源輕量級MoE多模態模型Kimi-VL,2.8B參數媲美SOTA模型!

人工智能 開源
帶你一起來看一下月之暗面最新的工作,基于MoE架構的高效多模態模型Kimi-VL。

最近有點忙,沒來得及更新,但一直保持著對前沿技術的緊密關注,不得不感嘆當今技術日新月異。

多模態推理模型進展,現有的開源大型視覺語言模型在可擴展性、計算效率和高級推理能力方面顯著落后于純文本語言模型。

OpenAI的GPT-4o和Google的Gemini等模型能夠無縫感知和解釋視覺輸入,但不開源,DeepSeek-R1等模型雖然采用了MoE架構,但在長上下文推理和多模態任務上仍有不足。

此外,早期的基于MoE的視覺語言模型在架構和能力上存在局限,無法處理長上下文和高分辨率視覺輸入

今天來看一下月之暗面最新的工作,基于MoE架構的高效多模態模型Kimi-VL。

先來看下Kimi-VL的主要創新:

  • 創新的模型架構設計:該模型由 MoonViT(原生分辨率視覺編碼器)、MLP 投影器和 MoE 語言模型組成,能夠處理多種輸入形式(單圖像、多圖像、視頻、長文檔等),在多種任務(如細粒度感知、數學問題、大學水平問題、OCR、代理任務等)上表現出色。
  • 高效多模態推理能力:Kimi-VL 在多個具有挑戰性的視覺語言任務中展現出強大的能力,包括大學水平的圖像和視頻理解、OCR、數學推理、多圖像理解等,并在與 GPT-4omini、Qwen2.5-VL-7B、Gemma-3-12B-IT 等前沿高效 VLM 的比較評估中表現出色,甚至在某些關鍵領域超越了 GPT-4o。
  • 長文本和長視頻處理能力:Kimi-VL 擁有 128K 擴展上下文窗口,能夠處理多樣化的長輸入,在 LongVideoBench 和 MMLongBench-Doc 等基準測試中取得了令人印象深刻的分數(分別為 64.5 和 35.1),并且其原生分辨率視覺編碼器 MoonViT 能夠清晰地看到和理解超高分辨率視覺輸入,同時在常見任務中保持較低的計算成本。
  • 推出 Kimi-VL-Thinking 變體:基于 Kimi-VL,通過長鏈推理(CoT)監督微調(SFT)和強化學習(RL)開發了 Kimi-VL-Thinking,該模型僅2.8B激活參數就在 MMMU、MathVision 和 MathVista 等基準測試中表現出色。

再來看下突破性的性能表現

  • 與Qwen2.5-VL、Gemma-3等前沿開源VLM相比,Kimi-VL-Thinking僅使用2.8B激活參數即可實現強大的多模態推理。

圖片

  • 在一些重要基準測試中,Kimi新模型“以小博大”,2.8B的參數激活超越了GPT-4o、Llama-3.2等前沿模型。

圖片

下面來詳細介紹下技術細節:

1、模型架構

圖片

Kimi-VL 的模型架構由三個主要部分組成:原生分辨率視覺編碼器(MoonViT)、MLP 投影器和混合專家(MoE)語言模型。

MoonViT:原生分辨率視覺編碼器

MoonViT 是 Kimi-VL 的視覺編碼器,其核心功能是能夠直接處理不同分辨率的圖像,而無需復雜的子圖像分割和拼接操作。這種設計使得模型能夠更自然地處理多樣化的視覺輸入,同時保持高效的計算性能。

實現細節:

  • 圖像預處理:MoonViT 采用 NaViT 的打包方法,將圖像分割為圖塊(patches),展平后按順序拼接成一維序列。這種預處理方法使得 MoonViT 能夠與語言模型共享相同的核心計算算子和優化,例如變長序列注意力機制(如 FlashAttention)。
  • 位置嵌入:MoonViT 基于 SigLIP-SO-400M 初始化并持續預訓練,該模型原本使用可學習的固定尺寸絕對位置嵌入來編碼空間信息。然而,隨著圖像分辨率的提高,這些插值后的嵌入逐漸變得不足。為了解決這一問題,在高度和寬度維度上引入了二維旋轉位置嵌入(RoPE),從而改善了細粒度位置信息的表示,尤其是在高分辨率圖像中。這兩種位置嵌入方法共同為模型編碼空間信息,并與展平和打包流程無縫集成。
  • 輸出特征:生成的連續圖像特征隨后被傳遞到 MLP 投影器,并最終輸入 MoE 語言模型進行后續訓練階段。

MLP 投影器

MLP 投影器的作用是將視覺編碼器(MoonViT)提取的圖像特征投影到語言模型(LLM)的嵌入維度。這一過程確保了視覺特征能夠被語言模型有效理解和處理。

實現細節:

  • 像素混洗操作:首先使用像素混洗操作對 MoonViT 提取的圖像特征進行空間維度壓縮,進行 2×2 下采樣并相應擴展通道維度。
  • 兩層 MLP:將像素混洗后的特征輸入兩層 MLP,將其投影到 LLM 嵌入的維度。

混合專家(MoE)語言模型

Kimi-VL 的語言模型采用 Moonlight 模型,一個具有2.8B激活參數、16B總參數的 MoE 語言模型,其架構與 DeepSeek-V3 相似。MoE 架構通過動態選擇專家模塊來處理輸入,從而在保持高效計算的同時,提升模型的表達能力和推理能力。

實現細節:

  • 初始化:從 Moonlight 預訓練階段的中間檢查點初始化,該檢查點已處理 5.2T 純文本數據 token 并激活了 8192 token(8K)的上下文長度。
  • 聯合預訓練:使用總計 2.3T token 的多模態和純文本數據的聯合配方繼續預訓練。這一過程確保了模型在語言和多模態任務上的全面能力。
  • 專家選擇:MoE 架構通過動態選擇專家模塊來處理輸入,從而在保持高效計算的同時,提升模型的表達能力和推理能力。

增強版Muon優化器

在訓練Kimi-VL模型時,優化器的選擇對于模型的收斂速度和最終性能至關重要。本研究中使用了增強版的Muon優化器(Muon is Scalable for LLM Training),它在原始Muon優化器的基礎上,通過增加權重衰減、調整Per-Parameter更新規模、基于ZeRO-1優化策略,開發了Muon優化器的分布式實現等方法進行了改進,以更好地適應大規模訓練的需求。

2、預訓練

Kimi-VL的預訓練過程包含四個階段,每個階段都有其特定的目標和數據組成,旨在逐步提升模型的語言和多模態能力。

圖片

圖片

ViT訓練階段

這一階段的目標是訓練一個強大的原生分辨率視覺編碼器(MoonViT),使其能夠高效處理不同分辨率的圖像

訓練數據使用圖像-文本對進行訓練,其中文本部分包括:圖像替代文本(alt text)、合成標題(synthetic captions)、grounding 邊界框(grounding bboxes)、OCR 文本(OCR texts)。

方法

  • 損失函數:結合 SigLIP 損失(一種對比損失變體)和基于輸入圖像的標題生成交叉熵損失。最終損失函數為:圖片,其中λ=2。
  • 訓練策略:圖像和文本編碼器計算對比損失,文本解碼器基于圖像編碼器的特征進行下一 token 預測(NTP)。為加速訓練,使用 SigLIP SO-400M 權重初始化兩個編碼器,并采用漸進分辨率采樣策略逐步允許更大尺寸的圖像。
  • 對齊階段:在消耗 2T token 的 CoCa 式階段訓練 ViT 后,再用 0.1T token 將 MoonViT 與 MoE 語言模型對齊,此階段僅更新 MoonViT 和 MLP 投影器。這一對齊階段顯著降低了語言模型中 MoonViT 嵌入的初始困惑度,為后續聯合預訓練階段的平穩進行奠定了基礎。

聯合預訓練階段

這一階段的目標是整合語言和視覺能力,提升模型的多模態理解能力

訓練數據使用純文本數據和多模態數據的組合進行訓練。多模態數據包括:圖像-文本對、視頻-文本對、OCR 數據、知識數據(如幾何圖形、圖表等)

方法

  • 訓練策略:從加載的 LLM 檢查點繼續訓練,采用相同的學習率調度器,額外消耗 1.4T token。初始步驟僅使用語言數據,之后逐步增加多模態數據的比例。
  • 漸進方法:通過逐步增加多模態數據的比例,確保模型在保留語言能力的同時,成功整合視覺理解能力。

聯合冷卻階段

這一階段的目標是通過高質量的數據進一步提升模型的性能,特別是在數學推理、知識型任務和代碼生成方面

訓練數據使用高質量的語言和多模態數據集進行訓練,包括:合成數據(用于數學推理、知識型任務和代碼生成)、經過篩選的學術視覺或視覺語言數據源

方法

  • 語言部分:通過實證研究,發現冷卻階段加入合成數據能顯著提升性能,尤其是在數學推理、知識型任務和代碼生成方面。冷卻數據集的一般文本部分選自預訓練語料庫的高保真子集。
  • 多模態部分:除了采用文本冷卻數據準備的兩種策略(即問答合成和高質量子集回放)外,還篩選并重寫了多種學術視覺或視覺語言數據源為 QA 對。
  • 采樣策略:采用混合方法,利用選定的預訓練子集,同時通過專有語言模型生成內容進行增強。通過拒絕采樣技術生成 QA 對,并在整合到冷卻數據集前進行全面驗證。

聯合冷卻階段是模型預訓練過程中的一個重要環節,通過使用高質量的數據集和特定的訓練策略,可以幫助模型在多種任務上表現出色,通過逐步減少數據的復雜性和多樣性,幫助模型在訓練過程中更加穩定,避免過擬合,進一步提升模型的性能和穩定性。

聯合長上下文激活階段

這一階段的目標是擴展模型的上下文長度,使其能夠處理更長的文本和視頻輸入。

訓練數據使用長文本、長視頻和長文檔等長上下文數據進行訓練。

方法

  • 上下文長度擴展:將模型的上下文長度從 8192(8K)擴展到 131072(128K),并將其 RoPE 嵌入的逆頻率從 50,000 重置為 800,000。
  • 分階段擴展:聯合長上下文階段分為兩個子階段,每個子階段將模型的上下文長度擴展四倍。在每個子階段,將長數據的比例過濾并上采樣至 25%,同時用剩余的 75% token 回放前一階段的短數據。
  • 數據組成:長上下文激活數據不僅包含長文本,還包括長多模態數據,如長交錯數據、長視頻和長文檔。還合成了一小部分 QA 對以增強長上下文激活的學習效率。

經過長上下文激活后,模型能夠通過長純文本或長視頻的 NIAH 評估,證明了其多功能的長上下文能力。具體來說,模型在不同上下文長度范圍內的 NIAH 召回準確率如表所示:

圖片

3、后訓練

在預訓練階段之后,Kimi-VL 進入后訓練階段,這一階段的目標是通過特定的任務數據進一步微調模型,以提升其在實際應用中的性能。后訓練階段主要包括以下幾個部分:聯合監督微調(SFT)、長鏈推理(CoT)監督微調和強化學習(RL)。

圖片

聯合監督微調(SFT)

這一階段,通過基于指令的微調,增強模型遵循指令和進行對話的能力,最終形成交互式的 Kimi-VL 模型。

訓練數據使用純文本和視覺語言 SFT 數據的混合進行訓練。這些數據包括指令-響應對,覆蓋多種任務和場景。

長鏈推理(CoT)監督微調

這一階段,通過長鏈推理(CoT)監督微調,提升模型在復雜推理任務中的表現。

訓練數據基于精煉的RL提示集,通過提示工程構建了一個高質量的長 CoT 預熱數據集,包含針對文本和圖像輸入的經過準確驗證的推理路徑。生成的預熱數據集旨在封裝對人類式推理至關重要的關鍵認知過程,例如規劃(模型在執行前系統化步驟)、評估(對中間步驟的關鍵評估)、反思(重新考慮并改進方法)和探索(鼓勵考慮替代解決方案)。

方法:對預熱數據集進行輕量級監督微調,引導模型內化這些多模態推理策略。逐步增加推理路徑的復雜性,使模型能夠處理更復雜的推理任務。

強化學習(RL)

這一階段,通過強化學習進一步提升模型的推理能力,使其能夠自主生成結構化的 CoT 推理過程。

方法:采用在線策略鏡像下降變體作為 RL 算法,通過迭代優化策略模型圖片以提高其問題解決準確性。在第i次訓練迭代中,將當前模型視為參考策略模型,并優化以下目標,通過相對熵正則化以穩定策略更新:

圖片


4、實驗結果

與前沿模型對比

圖片

推理能力

  • Kimi-VL 的長鏈推理(CoT)能力通過長 CoT 監督微調和強化學習得到了顯著提升,使其在處理復雜的多步推理任務時具有強大的能力。

圖片

圖片

  • Kimi-VL-Thinking 在測試時推理長度的擴展也表現出色,表明 Kimi-VL-Thinking 能夠利用更長的推理鏈來提高其在復雜任務中的表現。

圖片

5、Kimi-VL能力展示

圖片

圖片

圖片

圖片

圖片

圖片

圖片


責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2025-04-11 09:10:00

模型開源AI

2025-03-19 09:30:00

2025-06-17 09:07:24

2024-08-30 15:19:22

2024-04-02 09:17:50

AI數據開源

2024-08-16 16:37:50

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-05-19 09:07:00

2024-03-25 12:40:19

訓練模型

2024-06-04 14:09:00

2023-06-06 14:09:32

模型開源

2025-05-14 15:05:21

模型AI訓練

2024-01-12 17:25:45

MoE模型開源人工智能

2025-05-15 08:30:00

2024-12-09 08:15:43

2024-12-25 09:30:00

2025-04-28 14:13:43

開源SOTA多模態

2025-01-08 08:21:16

2024-10-25 14:30:00

模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美在线视频 | 毛片一区二区三区 | a免费视频| 一级全黄少妇性色生活免费看 | 日韩福利 | 欧美日韩亚洲系列 | 久久久久久影院 | 国产在线精品一区二区 | 欧美成人不卡 | 一级黄色片免费 | 黄网站免费在线观看 | 国产精品一卡二卡三卡 | 成人在线一区二区三区 | 亚洲三级在线 | 欧美日韩成人影院 | 在线观看日韩 | 91大神在线资源观看无广告 | 国产一区黄色 | 福利国产| 91欧美精品成人综合在线观看 | av网站免费在线观看 | 91久久精品国产91久久性色tv | 91偷拍精品一区二区三区 | 成年人视频在线免费观看 | 日本精品网站 | 亚洲天堂av在线 | 欧美精品一区二区免费视频 | 日韩网 | 亚洲国产一区二区三区在线观看 | 九九99九九精彩46 | 日日操夜夜操天天操 | 国产激情自拍视频 | 91精品国产91久久久久福利 | 日韩在线不卡 | 精品久久久一区 | 亚洲欧美日韩国产综合 | 午夜视频在线观看一区二区 | 亚洲天堂av一区 | 成人妇女免费播放久久久 | 日日日色| 日韩毛片在线视频 |