成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智源開放3億條語義向量模型訓(xùn)練數(shù)據(jù), BGE模型持續(xù)迭代更新

人工智能 新聞
BGE 的出色能力很大程度上源于其大規(guī)模、多樣化的訓(xùn)練數(shù)據(jù)。此前,業(yè)界同行鮮有發(fā)布同類數(shù)據(jù)集。

伴隨著大模型開發(fā)和應(yīng)用的火熱發(fā)展,作為大模型核心基礎(chǔ)組件的 Embedding 重要性愈發(fā)凸顯。智源于一月前發(fā)布的開源可商用中英文語義向量模型 BGE(BAAI General Embedding)在社區(qū)收獲頗高關(guān)注度,Hugging Face 累計(jì)下載量達(dá)到數(shù)十萬。當(dāng)前,BGE 快速迭代推出 1.5 版本并公布多項(xiàng)更新,其中,BGE 首次開源 3 億條大規(guī)模訓(xùn)練數(shù)據(jù),幫助社區(qū)訓(xùn)練同類模型,推動(dòng)該領(lǐng)域技術(shù)發(fā)展。

3 億中英向量模型訓(xùn)練數(shù)據(jù)開放

業(yè)界語義向量模型訓(xùn)練數(shù)據(jù)首次開源,達(dá) 3 億中英文數(shù)據(jù)。

BGE 的出色能力很大程度上源于其大規(guī)模、多樣化的訓(xùn)練數(shù)據(jù)。此前,業(yè)界同行鮮有發(fā)布同類數(shù)據(jù)集。在本次更新中,智源首次將 BGE 的訓(xùn)練數(shù)據(jù)向社區(qū)予以開放,為推動(dòng)此類技術(shù)進(jìn)一步發(fā)展打下了基礎(chǔ)。

此次發(fā)布的數(shù)據(jù)集 MTP 由總計(jì) 3 億條中英文關(guān)聯(lián)文本對(duì)構(gòu)成;其中,中文記錄達(dá) 1 億條,英文數(shù)據(jù)達(dá) 2 億條。數(shù)據(jù)收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料,經(jīng)過必要的采樣、抽取、清洗獲得。

詳細(xì)細(xì)節(jié)請(qǐng)參考 Data Hub:https://data.baai.ac.cn

MTP 為迄今開源的最大規(guī)模中英文關(guān)聯(lián)文本對(duì)數(shù)據(jù)集,為訓(xùn)練中英文語義向量模型提供重要基礎(chǔ)。

響應(yīng)開發(fā)者社區(qū),BGE 功能升級(jí)

基于社區(qū)反饋,BGE 在其 1.0 的版本之上進(jìn)行了進(jìn)一步優(yōu)化,其表現(xiàn)更加穩(wěn)健、出色。具體升級(jí)如下:

  • 模型更新。BGE-*-zh-v1.5 緩解了相似度分布問題,通過對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行過濾,刪除低質(zhì)量數(shù)據(jù),提高訓(xùn)練時(shí)溫度系數(shù) temperature 至 0.02,使得相似度數(shù)值更加平穩(wěn) 。
  • 新增模型。開源 BGE-reranker 交叉編碼器模型,可更加精準(zhǔn)找到相關(guān)文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker 直接文本對(duì)輸出相似度,排序準(zhǔn)確度更高,可用于對(duì)向量召回結(jié)果的重新排序,提升最終結(jié)果的相關(guān)性。
  • 新增功能。BGE1.1 增加難負(fù)樣本挖掘腳本,難負(fù)樣本可有效提升微調(diào)后檢索的效果;在微調(diào)代碼中增加在微調(diào)中增加指令的功能;模型保存也將自動(dòng)轉(zhuǎn)成 sentence transformer 格式,更方便模型加載。

值得一提的是,日前,智源聯(lián)合 Hugging Face 發(fā)布了一篇技術(shù)報(bào)告,報(bào)告提出用 C-Pack 增強(qiáng)中文通用語義向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》

鏈接:https://arxiv.org/pdf/2309.07597.pdf

在開發(fā)者社區(qū)收獲高熱度

BGE 發(fā)布自以來受到大模型開發(fā)者社區(qū)關(guān)注,目前 Hugging Face 累計(jì)下載量達(dá)到數(shù)十萬,且已被 LangChain、LangChain-Chatchat、llama_index 等知名開源項(xiàng)目集成。

Langchain 官方、LangChain 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Harrison Chase、Deep trading 創(chuàng)始人 Yam Peleg 等社區(qū)大 V 對(duì) BGE 表示關(guān)注。

圖片


堅(jiān)持開源開放,促進(jìn)協(xié)同創(chuàng)新,智源大模型技術(shù)開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,聚焦于 Embedding 技術(shù)和模型,BGE 是其中明星開源項(xiàng)目之一。FlagOpen 致力于打造大模型時(shí)代的 AI 技術(shù)基礎(chǔ)設(shè)施,未來將持續(xù)向?qū)W術(shù)界和產(chǎn)業(yè)界開源更為完整的大模型全棧技術(shù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-08-09 10:08:00

模型AI

2025-03-19 09:30:00

2025-05-21 08:35:00

2023-09-16 13:31:25

模型訓(xùn)練

2020-11-18 10:29:07

模型人工智能開源

2023-11-07 11:50:14

AI訓(xùn)練

2022-12-06 14:11:32

開源模型

2024-06-19 11:45:34

2021-09-02 18:41:48

智源研究院人工智能

2020-02-24 10:51:25

微軟開源Windows

2022-03-24 10:35:38

人工智能模型代碼

2023-09-05 10:21:03

人工智能

2025-02-13 08:26:26

2022-06-25 21:17:15

人工智能訓(xùn)練

2025-03-21 07:00:00

2024-08-07 15:27:50

2017-08-09 10:02:12

NMT神經(jīng)網(wǎng)絡(luò)自然語言處理

2023-04-10 11:18:24

GPT模型

2025-06-06 14:30:52

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产午夜精品久久久久 | 夜夜艹天天干 | 亚洲国产一区二区视频 | www.一区二区三区 | 亚洲一区二区国产 | 国产成人91| 国产高清毛片 | 九九热免费观看 | 国产男女猛烈无遮掩视频免费网站 | www.天天操.com | 日本精品在线播放 | 毛片a | 日韩欧美中文在线 | 国产一区 | 亚洲视频在线一区 | 亚洲激情综合 | 中文字幕乱码一区二区三区 | av免费网站在线观看 | 另类亚洲视频 | www.久久 | 伊人春色在线观看 | 亚洲黄色在线免费观看 | 欧美精品久久久久 | 亚洲精品二三区 | 免费精品一区 | 99国产精品久久久 | 天天天天操| 婷婷福利| 成人久久 | 亚洲精品一二三区 | 午夜视频一区 | 都市激情亚洲 | 午夜免费观看体验区 | 欧美一级视频在线观看 | 天天综合91 | 久久成人18免费网站 | 玖玖综合在线 | 久久成人免费 | 亚洲一区二区三区四区五区中文 | 国产欧美一区二区三区日本久久久 | 欧美视频第三页 |