Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節原創

發布于 2025-3-11 10:12

瀏覽

0收藏

Phi-4-Multimodal 是一種參數高效的多模態模型，通過 LoRA 適配器和模式特定路由器實現文本、視覺和語音/音頻的無縫集成。訓練過程包括多階段優化，確保在不同模式和任務上的性能，數據來源多樣，覆蓋高質量合成數據。它的設計體現了小型語言模型在多模態任務上的潛力。

模型架構

Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節-AI.x社區

模型架構

Phi-4-Multimodal 的基礎是Phi-4-Mini語言模型，這是一個 3.8 億參數的模型，設計為高效處理文本任務。架構包括：

Transformer層和維度：32 層Transformer，隱藏狀態大小為 3072。
效率技術：使用分組查詢注意力（GQA），通過 24 個查詢頭和 8 個鍵/值頭減少 KV 緩存大小至標準模型的三分之一，提升計算效率。
分詞器：使用 o200k 基礎 tiktoken，分詞表大小為 200,064，支持多語言和多模態輸入。

為了擴展到多模態功能，模型通過 LoRA 適配器和模式特定路由器集成視覺和音頻模式：

視覺模式：

圖像編碼器：使用 SigLIP-400M，結合 LLM2CLIP 在圖像-文本對上微調，分辨率為 448x448。SigLIP-400M 是一個視覺-語言模型，專門為圖像理解優化。

項目器：一個 2 層 MLP，將視覺特征映射到文本嵌入維度 3072，確保視覺輸入與語言模型的嵌入空間兼容。

LoRA 適配器（LoRA_V）：添加到語言解碼器的所有線性層，參數約 3.7 億，用于監督微調階段。LoRA 是一種參數高效的微調技術，通過低秩更新適配模型。

動態多裁剪策略：在訓練中處理不同圖像大小，裁剪數量計算為 ?H/C? × ?W/C?，預訓練最多 16 個裁剪，監督微調最多 36 個，必要時調整大小。

語音/音頻模式：

輸入特征：80 維 log-Mel 濾波器組特征，幀率為 10ms，標記率為 80ms（每分鐘 750 個標記），適合高效音頻處理。

音頻編碼器：包括 3 個卷積層和 24 個符合塊，注意維度為 1024，前饋維度為 1536，16 個注意頭，子采樣率為 8。符合塊結合了自注意力機制和卷積，適合捕獲音頻的時序和頻率特征。

項目器：一個 2 層 MLP，將 1024 維語音特征映射到 3072 維文本嵌入，確保音頻輸入與語言模型的嵌入空間兼容。

LoRA 適配器（LoRA_A）：應用于所有注意和 MLP 層，秩為 320，參數約 4.6 億，通過低秩更新適配音頻處理。

多模態集成：模型采用 LoRA 適配器的混合設計，通過模式特定路由器選擇適當的適配器，處理文本、視覺和語音/音頻輸入，無干擾地支持多模態推理。這是一種參數高效的方法，保持基礎語言模型的完整性，同時添加新功能。

總參數量為 5.6 億，相比 Phi-4-Mini 的 3.8 億，增加了約 1.8 億參數，主要用于視覺和音頻編碼器及 LoRA 適配器。上下文長度為 128K 標記，受益于 GQA 和其他效率技術，適合處理長序列輸入。

訓練方法

Phi-4-Multimodal 的訓練過程分多個階段，針對不同模式和任務優化，確保模型在多模態任務上的性能。訓練步驟如下：

基礎語言模型預訓練：

在 5 萬億個高質量標記上預訓練，包括網絡數據和合成數據。數據來源經過精心挑選，確保覆蓋多種語言和任務，如功能調用、總結和指令跟隨。

視覺訓練：

階段 1：項目器對齊- 使用標題數據訓練項目器，確保視覺特征與語言模型嵌入空間的對齊。

階段 2：聯合視覺訓練- 在完整數據集上訓練項目器和編碼器，針對 OCR 和密集理解任務，數據集包括圖像-文本對、OCR PDF 和現實圖像。

階段 3：生成視覺-語言訓練- 在解碼器上訓練 LoRA，使用單幀 SFT 數據，開發生成能力，數據集包括公共和內部多模態數據集，如通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像和視頻。

階段 4：多幀訓練- 視覺編碼器凍結，在多幀 SFT 數據上訓練，上下文長度為 64k，適合處理多幀場景。

語音/音頻訓練：

預訓練：使用 200 萬小時匿名語音-文本對，覆蓋 8 種語言（中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語），訓練音頻編碼器和項目器，解碼器凍結，初始化為自動編碼解碼（AED）ASR 模型。

后訓練：使用 1 億個精選 SFT 樣本更新項目器和 LoRA_A，50,000 步。最大音頻長度為總結的 30 分鐘（22,500 個標記），其他任務的 30 秒（375 個標記），包括 ASR（40,000 小時，2,800 萬 SFT 示例）、AST（30,000 小時，2,800 萬 SFT 示例，7 種語言到/從英語，CoT）、SQA/SQQA（2,600 萬 SFT 示例，合成 QA 對，TTS 生成查詢）、總結（100 萬 SFT 示例，英語，多說話者，GPT-4 查詢）和音頻理解（1,700 萬 SFT 示例，公共音頻/音樂，GPT-4 Q&A）。

視覺-語音聯合訓練：

在視覺和語音單獨訓練后，凍結語言基礎、音頻編碼器和項目器，微調視覺適配器 LoRA_V、編碼器和項目器，使用視覺-語音 SFT 數據加上語言/視覺后訓練數據，確保多模態協同工作。

推理訓練：

階段 1：預訓練- 在 600 億推理鏈式思維 CoT 標記上預訓練，從前沿 LLM 中提取，通過拒絕采樣過濾錯誤輸出，確保數據質量。

階段 2：微調- 在 20 萬個高質量 CoT 樣本上微調，覆蓋不同領域，如數學、編碼和邏輯推理。

階段 3：直接偏好優化（DPO）訓練- 在 30 萬個偏好樣本上應用，將錯誤輸出標記為“非首選”，糾正輸出為“首選”，通過人類反饋進一步對齊模型。

訓練數據細節

Phi-4-Multimodal 是一種由 Microsoft 開發的先進多模態大模型，能夠處理文本、圖像和音頻輸入并生成文本輸出。其訓練數據細節涵蓋語言、視覺-語言、視覺-語音和語音/音頻四個主要類別，數據來源包括網絡、合成和真實數據，數據量龐大且經過精心優化。

語言訓練數據

語言訓練是 Phi-4-Multimodal 的基礎，基于 Phi-4-Mini 語言模型的預訓練和后訓練數據：

預訓練數據：

數據來源：高質量網絡數據和合成數據，特別強調數學和編碼數據集以提升復雜推理能力。

數據量：5 萬億個標記（tokens）。

描述：合成數據通過精心策劃，確保覆蓋高價值的任務，如數學競賽問題和編碼任務，顯著提升模型在這些領域的表現。

后訓練數據：

功能調用、總結和代碼完成：使用額外數據進行后訓練，具體數量未公開，但涉及多種任務。

推理訓練：使用 600 億個推理鏈式思維（CoT）標記，從前沿大型語言模型（LLM）中提取，通過拒絕采樣過濾錯誤輸出，確保數據質量。

微調：在 20 萬個高質量 CoT 樣本上微調，覆蓋數學、編碼和邏輯推理等不同領域。

直接偏好優化（DPO）：在 30 萬個偏好樣本上應用，將錯誤輸出標記為“非首選”，糾正輸出為“首選”，通過人類反饋進一步對齊模型。

視覺-語言訓練數據

視覺-語言訓練擴展了模型處理圖像和相關文本的能力，分為預訓練和監督微調（SFT）兩個階段：

預訓練數據：

數據類型：包括圖像-文本對、圖像接地數據、OCR PDF、現實圖像和圖表理解數據。

數據量：文本部分約 0.5 萬億標記，具體圖像數量未公開。

描述：數據覆蓋廣泛，包括公共和內部多模態數據集，最高圖像分辨率達 1344x1344，適合 OCR 和密集理解任務。

監督微調（SFT）數據：

數據類型：通用圖像、圖表/表格/圖表、PowerPoint、OCR、多圖像、視頻和安全數據集。

數據量：文本部分約 0.3 萬億標記。

描述：數據來源包括公共和內部數據集，確保生成能力和多模態任務性能。

視覺-語音訓練數據

視覺-語音訓練數據是合成生成的，基于視覺-語言 SFT 數據：

數據創建方法：復用視覺-語言 SFT 數據，通過文本轉語音（TTS）引擎生成語音查詢，基于詞錯誤率（WER）過濾質量。
數據量：具體數量未公開，但依賴于視覺-語言 SFT 數據規模（約 0.3 萬億標記文本部分）。

語音/音頻訓練數據

語音/音頻訓練數據分為預訓練和后訓練兩個階段，數據量巨大，覆蓋多種任務：
預訓練數據：

數據來源：200 萬小時匿名語音-文本對，覆蓋 8 種語言：中文、英語、法語、德語、意大利語、日語、葡萄牙語、西班牙語。

描述：用于訓練音頻編碼器和項目器，確保語音特征與語言模型嵌入空間對齊，初始化為自動編碼解碼（AED）ASR 模型。

后訓練數據：

SFT 示例：1.7 百萬（公共音頻/音樂，GPT-4 Q&A）。

SFT 示例：100,000（英語，多說話者，GPT-4 查詢）。

SFT 示例：2.6 百萬（合成 QA 對，TTS 生成查詢）。

數據量：30,000 小時。

SFT 示例：2.8 百萬（7 種語言到/從英語，包含 CoT）。

數據量：40,000 小時。

SFT 示例：2.8 百萬。

自動語音識別（ASR）：

自動語音翻譯（AST）：

語音問答（SQA/SQQA）：

總結（SSUM）：

音頻理解（AU）：

訓練數據匯總表：

Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節-AI.x社區

一個意想不到的細節是，語音預訓練數據高達 200 萬小時，相當于連續錄音 228 年。

性能

Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節-AI.x社區

參考文獻：

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs，https://arxiv.org/pdf/2503.01743

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/EfVXI7h2EKUsNtzWw6yWsw????

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-3-11 10:12:51修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Phi-4-multimodal：圖、文、音頻統一的多模態大模型架構、訓練方法、數據細節原創

模型架構

訓練方法