成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態檢索大升級!智源三大SOTA模型,代碼、圖文理解能力拉滿

人工智能
就在剛剛,智源研究員聯合多所高校開放三款向量模型,以大優勢登頂多項測試基準。其中,BGE-Code-v1直接擊穿代碼檢索天花板,百萬行級代碼庫再也不用怕了!

檢索增強技術在代碼及多模態場景中的發揮著重要作用,而向量模型是檢索增強體系中的重要組成部分。

針對這一需求,近日,智源研究院聯合多所高校研發了三款向量模型,包括代碼向量模型BGE-Code-v1,多模態向量模型BGE-VL-v1.5以及視覺化文檔向量模型BGE-VL-Screenshot。

這些模型取得了代碼及多模態檢索的最佳效果,并以較大優勢登頂CoIR、Code-RAG、MMEB、MVRB等領域內主要測試基準。

BGE自2023年8月發布以來,已成為中國首個登頂Hugging Face榜首的國產AI模型以及2023年所有發布模型的全球下載量冠軍。

圖片圖片

目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot三款模型已向社區全面開放,為相關技術研究與產業應用提供助力。

  • BGE-Code-v1:

模型地址:https://huggingface.co/BAAI/bge-code-v1

項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder

論文鏈接:https://arxiv.org/abs/2505.12697

  • BGE-VL-v1.5:

模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs

項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL

論文鏈接:https://arxiv.org/abs/2412.14475

  • BGE-VL-Screenshot:

模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot

項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot

論文鏈接:https://arxiv.org/abs/2502.11431

圖片圖片

由智源研究院主導研發的通用向量模型系列BGE,旨在為各類數據提供高效一站式向量表征與語義檢索方案,已推出覆蓋中英文、多語言檢索及重排模型等多個版本,持續刷新MTEB、C-MTEB、BEIR、MIRACL等主流文本向量評測基準。

BGE憑借高性能與開源特性備受業界關注,已廣泛應用于RAG、神經搜索等場景,累計下載超6億次,被國內外多家AI企業集成。

目前,檢索增強技術正從傳統的文本場景逐步拓展至涵蓋代碼與視覺等多模態數據的應用。

然而,相較于文本領域,現有向量模型在代碼和視覺模態中的檢索效果仍有待提升。

此次智源研究院發布的三款新模型,為構建更強大的多模態檢索增強系統提供了有力的支持。

BGE-Code-v1新一代代碼優化語義向量模型

圖片圖片

隨著基礎模型代碼能力快速發展,Cursor、Copilot等輔助編程工具大幅提升生產力。

在面對百萬行級代碼庫時,代碼塊檢索增強需求凸顯,因此檢索模型的代碼理解能力至關重要。

BGE-Code-v1是以Qwen2.5-Coder-1.5B為基座打造的新一代代碼向量模型,專為各類代碼檢索相關任務而設計,同時配備了強大的多語言文本理解能力。

模型基于CoIR訓練集和大量高質量代碼-文本的合成數據進行訓練,并使用課程學習,以BGE-gemma2-multilingual 的retrieval、STS數據為輔助,進一步提升代碼與文本的理解能力。

BGE-Code-v1適用于開發文檔搜索、代碼庫語義檢索、跨語言信息獲取等多種實際應用場景,是面向代碼-文本檢索任務的最優選擇。

圖片圖片

CoIR代碼檢索基準,收集了覆蓋14種編程語言的4大類8個子任務,能夠有效地評估模型在自然語言和代碼的各類混合場景中的檢索能力。

CodeRAG-Bench基準評估了代碼檢索模型在代碼檢索增強(RACG)中的表現。

BGE-Code-v1在兩個基準上均以顯著優勢超越谷歌、Voyage AI、Salesforce、Jina等商業/開源模型,登頂SOTA。

BGE-VL-v1.5通用多模態檢索模型

BGE-VL-v1.5 完成多模態檢索任務BGE-VL-v1.5 完成多模態檢索任務

BGE-VL-v1.5是基于LLaVA-1.6(7.57B參數)訓練的新一代通用多模態檢索模型,全面升級了圖文理解能力并具有更強大的檢索能力。

BGE-VL-v1.5在MagePairs 300萬 (3M) 圖文對齊數據基礎上又收集了共100萬條自然與合成數據(涵蓋image-captioning數據、視覺問答數據、分類任務數據)進行多任務訓練,顯著地提升了模型在各類任務上的泛化性與理解能力。

基于MegaPairs數據,BGE-VL-v1.5在多模態檢索任務中性能優勢顯著,不僅在圖像檢索中表現強勁,更在通用多模態場景中展現高適應性與準確率,適用于圖文匹配、多模態問答、跨模態推薦等場景。

圖片圖片

MMEB是當前使用最廣泛的多模態向量基準,由:分類、視覺問答、檢索、視覺基礎知識,四類任務構成。

基于zero-shot設置(未使用MMEB訓練集),BGE-VL-v1.5-zs在MMEB基準中刷新zero-shot模型最佳表現;在檢索任務上,基于MMEB微調的BGE-VL-v1.5-MMEB以72.16分登頂SOTA。

BGE-VL-Screenshot實用強大的視覺化文檔向量模型

實際場景中網頁、文檔等多模態任務常由圖文、符號、圖表等多元素混合數據構成,這類任務稱為「可視化信息檢索」(Vis-IR),因此,多模態模型不僅需要具備從復雜結構中提取關鍵信息的視覺能力,還需精準理解文本與視覺語義。

目前,現有檢索模型在此類任務中表現欠佳。

BGE-VL-Sc基于截圖與文本檢索BGE-VL-Sc基于截圖與文本檢索

BGE-VL-Screenshot模型基于Qwen2.5-VL-3B-Instruct,以新聞、商品、論文、文檔、項目主頁等七類數據源進行訓練,收集超過1300萬張截圖和700萬組標注截圖問答樣本。

為了準確評估模型在Vis-IR任務上的表現,團隊設計并推出了多模態檢索基準MVRB (Massive Visualized IR Benchmark,涵蓋截圖檢索、復合截圖檢索、截圖QA和開放分類4項任務共20個數據集。

MVRB榜單鏈接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard)

圖片圖片

BGE-VL-Screenshot在4項任務中表現出色,以60.61的綜合得分達到SOTA。

在此基礎上,通過少量query2screenshot多語言數據訓練,模型實現了在英文之外的多語言任務上的出色表現。

智源研究院將繼續深耕向量模型與檢索增強技術,進一步提升BGE模型系列的能力與通用性。

未來期待與更多科研機構與產業伙伴合作,共同推動檢索與人工智能發展。歡迎廣大研究者與開發者關注并使用 BGE 系列模型,共建開放繁榮的開源生態。

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-03-25 12:40:19

訓練模型

2025-05-21 08:35:00

2025-03-19 09:30:00

2024-04-02 09:17:50

AI數據開源

2025-01-08 08:21:16

2025-03-07 08:40:00

模型數據AI

2024-06-17 18:06:17

2023-12-19 18:12:25

谷歌模型AI

2024-10-30 15:00:00

AI視頻模型

2023-08-30 13:23:00

模型訓練

2025-05-21 08:47:00

2025-04-10 09:15:00

模型AI數據

2025-05-07 01:00:00

多模態大模型AI

2024-01-03 17:40:49

模型AI

2024-12-30 00:01:00

多模態大模型Python

2024-08-05 08:46:00

模型測評
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 人人干人人看 | 欧美亚洲日本 | 黄色在线网站 | 国产亚洲精品久久19p | 成年男女免费视频网站 | 亚洲精品久久久一区二区三区 | av一级在线观看 | 精品一区二区三区免费视频 | 九九热久久免费视频 | 男女网站免费 | 人人爽人人草 | 国产精品一区二区三区免费观看 | 日韩在线精品 | 玖玖色在线视频 | 天堂中文在线观看 | 在线精品国产 | 免费看的黄网站 | 国产在线激情视频 | www.久久久.com | 久久久久久久一区二区三区 | 中文字幕亚洲国产 | 中文字幕在线视频免费视频 | 久久久久久亚洲精品 | 538在线精品| 欧美日韩在线一区二区三区 | 综合一区 | 亚洲精品视频免费 | 国产精品a久久久久 | 国产999精品久久久 精品三级在线观看 | 综合久久99 | 91小视频在线 | 欧美一区二区三区国产精品 | 九九久久精品 | 久久久www成人免费无遮挡大片 | 欧美一区二区三区四区视频 | 欧美成人h版在线观看 | 色资源站 | 亚洲一区二区三 | 爱操影视 | 国产成人免费视频网站视频社区 | 99精品国自产在线 |