成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<noscript id="uperk"><delect id="uperk"></delect></noscript><table id="uperk"></table>

<label id="uperk"><dl id="uperk"></dl></label>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

發布于 2025-4-25 06:47

瀏覽

0收藏

訓練一個好的向量模型的重點在于最大限度地利用了更多、更高質量的負樣本，來訓練模型。
騰訊提出的Conan-embedding，采用了動態硬負樣本挖掘方法，以便在整個訓練過程中向模型展示更多具有挑戰性的負樣本。
最近發布Conan-embedding-V2版本，在MTEB榜單上已經超越了BGE等一眾傳統豪強。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

支持中、英雙語

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

一、Conan-embedding-V2

V1版本主要基于通用預訓練的雙向Bert模型進行Embedding任務的訓練。
V2版本從頭訓練了原創詞表和模型結構的大模型基座——Conan-1.4B，在此基礎上進行了中、英、多語言的Embedding任務的訓練。
上下文長度從v1版本的512，提升到了32k。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

訓練的4個階段

第1和第2階段，大語言模型（LLM）訓練階段

加入嵌入數據，以更好地使LLM與嵌入任務對齊

設計了Conan-1.4B，包含8層Attention Layers，Hidden Size為3584，最長上下文32k。

參數量是1.4B，能夠在較少的參數下提供更大的Embedding維度。

從基礎的字母、符號上，在約40萬條多語言語料上訓練了Conan的BBPE分詞器，目標詞表大小15萬，完成了詞表訓練。

第3階段，弱監督訓練階段

使用與LLM監督微調（SFT）相同的配對數據，并應用軟掩碼來彌合LLM與嵌入模型之間的差距。

使用gte-Qwen2-7B-instruct模型進行評分，并丟棄得分低于0.4的數據

訓練中采用了InfoNCE損失函數，并結合In-Batch Negative采樣

第4階段，監督訓練階段

引入了跨語言檢索數據集和動態硬負例挖掘方法，以提高數據的多樣性和價值

針對不同的下游任務進行任務特定的微調。

將任務分為四類：檢索、跨語言檢索、分類和語義文本相似度（STS）。

前三類任務：包括一個查詢、一個正例文本和一些負例文本，使用經典的InfoNCE損失函數。

STS任務涉及區分兩個文本之間的相似度，采用CoSENT損失來優化。

為了更好的對比Conan-embedding提升了哪些內容，下面也簡單介紹一下Conan-embeddingV1，尤其注意一下難例數據挖掘的方法，v2版本也是用同樣的方法

二、Conan-embeddingV1

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

總共分為：預訓練和微調兩個階段

2.1 預訓練階段

篩選數據：bge-large-zh-v1.5模型評分，丟棄所有得分低于 0.4 的數據。
使用帶批內負樣本的 InfoNCE 損失進行訓練，它利用小批量內的其他樣本作為負樣本優化模型。
即，在每個小批量中，除了目標樣本的正樣本對之外的所有樣本都被視為負樣本。
通過最大化正樣本對的相似性并最小化負樣本對的相似性，批內負樣本 InfoNCE 損失可以有效地提高模型的判別能力和表示學習性能。
此方法通過充分利用小批量內的樣本，提高了訓練效率，減少了生成額外負樣本的需求。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

2.2 監督微調

監督微調時對不同的下游任務執行特定的微調任務。將任務分為兩類：

檢索任務：

包括查詢、正文本和負文本，經典的損失函數是 InfoNCE 損失。

STS 任務：

涉及區分兩個文本之間的相似性，經典的損失函數是交叉熵損失。

CoSENT 損失略優于交叉熵損失，因此采用 CoSENT 損失來優化 STS 任務。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

三、難例數據挖掘

一種動態難樣本挖掘方法介紹：

對于每個數據點，記錄當前相對于查詢的難樣本的平均分數。
每 100 次迭代，如果分數乘以 1.15 小于初始分數，并且分數的絕對值小于 0.8，將認為負樣本不再困難，并進行新一輪的難樣本挖掘。
在每次動態困難負例挖掘過程中，如果需要替換困難負例，使用 (i-1)\times n + 10到i\times n +10 的案例作為負例，其中 i表示第 i次替換，而 n表示每次使用的困難負例數量。

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM-AI.x社區

上圖展示了動態困難負例挖掘與標準困難負例挖掘中正例和負例的得分-步數曲線
隨著步驟的增加，標準困難負例挖掘中負例的得分停止下降并開始振蕩，表明模型已經完成了從該批負例中學習。
相反，動態困難負例挖掘一旦檢測到負例不再對模型構成挑戰，就會替換這些困難負例。

??https://arxiv.org/pdf/2408.15710??
??https://huggingface.co/TencentBAC/Conan-embedding-v2??
??https://zhuanlan.zhihu.com/p/1897675709696149020??

本文轉載自??CourseAI??，作者：CourseAI

標簽

已于2025-4-25 10:09:37修改

贊

收藏

回復

舉報

回復

相關推薦

使用BERT的LLM提取摘要

51CTO內容精選 ? 3293瀏覽 ? 0回復
騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 3889瀏覽 ? 0回復
如何將大型語言模型（LLM）轉換為嵌入模型

51CTO內容精選 ? 3157瀏覽 ? 0回復
The Annotated BERT注釋加量版，讀懂代碼才算讀懂了BERT

魚蟲子 ? 2803瀏覽 ? 0回復
OpenAI最新套娃嵌入模型分析：256維的MTEB效果超過1536維

PaperAgent ? 5693瀏覽 ? 0回復
從零實現大模型-BERT微調

魚蟲子 ? 3267瀏覽 ? 0回復
最強大模型統計網站，從此告別LLM選擇恐懼癥！

魚蟲子 ? 3202瀏覽 ? 0回復
BERT如何增強NLP的性能

51CTO內容精選 ? 2434瀏覽 ? 0回復
OpenAI文本嵌入模型入門指南

51CTO內容精選 ? 3751瀏覽 ? 0回復
NLP范式總結 | 擁抱新范式

zhcs333 ? 2270瀏覽 ? 0回復
CFO應該理性擁抱Gen-AI

51CTO內容精選 ? 2249瀏覽 ? 0回復
2025年，擁抱AI Agent！

探索AGI ? 2755瀏覽 ? 0回復
大模型語義分析之嵌入(Embedding)模型

AI探索時代 ? 3449瀏覽 ? 0回復
Meta公布BLT新架構：告別token，擁抱patch

51CTO內容精選 ? 1964瀏覽 ? 0回復
騰訊元寶登頂下載榜，AI 下一戰拼什么？

算家計算 ? 2081瀏覽 ? 0回復
告別粗糙AI生成！BlobCtrl帶你玩轉元素級視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1682瀏覽 ? 0回復
OpenAI也妥協了，全面擁抱MCP!

探索AGI ? 2023瀏覽 ? 0回復
AI大語言模型（LLM）幻覺排行榜

AI取經路 ? 2606瀏覽 ? 0回復
字節屠榜！最強多模態大模型發布：20 B參數橫掃38項第一！

算家計算 ? 1066瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Anthropic 工程實踐《如何構建多智能體研究系統》 9天前發布
螞蟻多模態統一框架Ming-Omni：能看懂世界、會說話、還能畫畫 9天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%

下一篇： Qwen3 低成本手撕Search-R1的強化學習訓練框架

社區精華內容

目錄

主站蜘蛛池模板：国产精品成人一区二区 | 91在线观看免费视频 | 免费能直接在线观看黄的视频 | 第四色播日韩第一页 | 一区二区三区四区在线 | av中文天堂 | 久久国产精品-国产精品 | 99热这里有精品 | 三级av在线 | 成人三级在线观看 | 国产成人精品一区二区三区在线 | 一区免费| 午夜视频在线免费观看 | 成人影院网站ww555久久精品 | 欧美综合久久 | 免费一区在线观看 | 国产日韩精品一区二区 | 国产一区不卡在线观看 | 中文字幕在线不卡 | 成人小视频在线观看 | 国产亚洲精品美女久久久久久久久久 | 日本在线一二 | 在线色网站 | 91免费在线| 欧州一区二区三区 | 91久久综合 | 日韩一区二区三区四区五区六区 | 狠狠操操| 夜夜爽99久久国产综合精品女不卡 | 日韩视频一区二区 | 精品国产乱码久久久久久a丨 | 91久久伊人| 国产女人与拘做视频免费 | 国产激情免费视频 | 久久久亚洲一区 | 成人在线观看免费爱爱 | 精品国产aⅴ| 97人人澡人人爽91综合色 | 精品美女在线观看视频在线观看 | 亚洲国产精品视频 | 国产区在线 |

<samp id="negby"><legend id="negby"></legend></samp>

<tfoot id="negby"><legend id="negby"><td id="negby"></td></legend></tfoot>