代碼、多模態檢索全面登頂SOTA!智源BGE向量模型三連擊,并全面開放
檢索增強技術在代碼及多模態場景中的發揮著重要作用,而向量模型是檢索增強體系中的重要組成部分。針對這一需求,近日,智源研究院聯合多所高校研發了三款向量模型,包括代碼向量模型 BGE-Code-v1,多模態向量模型 BGE-VL-v1.5 以及視覺化文檔向量模型 BGE-VL-Screenshot。這些模型取得了代碼及多模態檢索的最佳效果,并以較大優勢登頂 CoIR、Code-RAG、MMEB、MVRB 等領域內主要測試基準。BGE 自 2023 年 8 月發布以來,已成為中國首個登頂 Hugging Face 榜首的國產 AI 模型以及 2023 年所有發布模型的全球下載量冠軍。
目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot 三款模型已向社區全面開放,為相關技術研究與產業應用提供助力。
BGE-Code-v1:
- 模型地址:https://huggingface.co/BAAI/bge-code-v1
- 項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
- 論文鏈接:https://arxiv.org/abs/2505.12697
BGE-VL-v1.5:
- 模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs
- 項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL
- 論文鏈接:https://arxiv.org/abs/2412.14475
BGE-VL-Screenshot:
- 模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot
- 項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot
- 論文鏈接:https://arxiv.org/abs/2502.11431
由智源研究院主導研發的通用向量模型系列 BGE,旨在為各類數據提供高效一站式向量表征與語義檢索方案,已推出覆蓋中英文、多語言檢索及重排模型等多個版本,持續刷新 MTEB、C-MTEB、BEIR、MIRACL 等主流文本向量評測基準。BGE 憑借高性能與開源特性備受業界關注,已廣泛應用于 RAG、神經搜索等場景,累計下載超 6 億次,被國內外多家 AI 企業集成。
目前,檢索增強技術正從傳統的文本場景逐步拓展至涵蓋代碼與視覺等多模態數據的應用。然而,相較于文本領域,現有向量模型在代碼和視覺模態中的檢索效果仍有待提升。此次智源研究院發布的三款新模型,為構建更強大的多模態檢索增強系統提供了有力的支持。
BGE-Code-v1
新一代代碼優化語義向量模型
隨著基礎模型代碼能力快速發展,Cursor、Copilot 等輔助編程工具大幅提升生產力。在面對百萬行級代碼庫時,代碼塊檢索增強需求凸顯,因此檢索模型的代碼理解能力至關重要。
BGE-Code-v1 是以 Qwen2.5-Coder-1.5B 為基座打造的新一代代碼向量模型,專為各類代碼檢索相關任務而設計,同時配備了強大的多語言文本理解能力。模型基于 CoIR 訓練集和大量高質量代碼 - 文本的合成數據進行訓練,并使用課程學習,以 BGE-gemma2-multilingual 的 retrieval、STS 數據為輔助,進一步提升代碼與文本的理解能力。BGE-Code-v1 適用于開發文檔搜索、代碼庫語義檢索、跨語言信息獲取等多種實際應用場景,是面向代碼 - 文本檢索任務的最優選擇。
CoIR 代碼檢索基準,收集了覆蓋 14 種編程語言的 4 大類 8 個子任務,能夠有效地評估模型在自然語言和代碼的各類混合場景中的檢索能力。CodeRAG-Bench 基準評估了代碼檢索模型在代碼檢索增強(RACG)中的表現。BGE-Code-v1 在兩個基準上均以顯著優勢超越谷歌、Voyage AI、Salesforce、Jina 等商業 / 開源模型,登頂 SOTA。
BGE-VL-v1.5
通用多模態檢索模型
BGE-VL-v1.5 完成多模態檢索任務
BGE-VL-v1.5 是基于 LLaVA-1.6(7.57B 參數)訓練的新一代通用多模態檢索模型,全面升級了圖文理解能力并具有更強大的檢索能力。BGE-VL-v1.5 在 MagePairs 300 萬 (3M) 圖文對齊數據基礎上又收集了共 100 萬條自然與合成數據(涵蓋 image-captioning 數據、視覺問答數據、分類任務數據)進行多任務訓練,顯著地提升了模型在各類任務上的泛化性與理解能力。
基于 MegaPairs 數據,BGE-VL-v1.5 在多模態檢索任務中性能優勢顯著,不僅在圖像檢索中表現強勁,更在通用多模態場景中展現高適應性與準確率,適用于圖文匹配、多模態問答、跨模態推薦等場景。
左為 BGE-VL-v1.5-zs 和其他 zero-shot 模型在MMEB上的表現,右為 BGE-VL-v1.5-MMEB 在 MMEB 基準檢索任務上的表現
MMEB 是當前使用最廣泛的多模態向量基準,由:分類、視覺問答、檢索、視覺基礎知識,四類任務構成。基于 zero-shot 設置(未使用 MMEB 訓練集),BGE-VL-v1.5-zs 在 MMEB 基準中刷新 zero-shot 模型最佳表現;在檢索任務上,基于 MMEB 微調的 BGE-VL-v1.5-MMEB 以 72.16 分登頂 SOTA。
BGE-VL-Screenshot
實用強大的視覺化文檔向量模型
實際場景中網頁、文檔等多模態任務常由圖文、符號、圖表等多元素混合數據構成,這類任務稱為 “可視化信息檢索”(Vis-IR),因此,多模態模型不僅需要具備從復雜結構中提取關鍵信息的視覺能力,還需精準理解文本與視覺語義。目前,現有檢索模型在此類任務中表現欠佳。
BGE-VL-Sc 基于截圖與文本檢索
BGE-VL-Screenshot 模型基于 Qwen2.5-VL-3B-Instruct ,以新聞、商品、論文、文檔、項目主頁等七類數據源進行訓練,收集超過 1300 萬張截圖和 700 萬組標注截圖問答樣本。
為了準確評估模型在 Vis-IR 任務上的表現,團隊設計并推出了多模態檢索基準 MVRB (Massive Visualized IR Benchmark,榜單鏈接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard),涵蓋截圖檢索、復合截圖檢索、截圖 QA 和開放分類 4 項任務共 20 個數據集。
左為多語言 MVRB 測評結果,右為不同尺寸多模態檢索模型 MVRB 評測結果對比
BGE-VL-Screenshot 在 4 項任務中表現出色,以 60.61 的綜合得分達到 SOTA。在此基礎上,通過少量 query2screenshot 多語言數據訓練,模型實現了在英文之外的多語言任務上的出色表現。
智源研究院將繼續深耕向量模型與檢索增強技術,進一步提升 BGE 模型系列的能力與通用性。未來期待與更多科研機構與產業伙伴合作,共同推動檢索與人工智能發展。歡迎廣大研究者與開發者關注并使用 BGE 系列模型,共建開放繁榮的開源生態。