成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="mqomg"></abbr>

<li id="mqomg"><menu id="mqomg"></menu></li>

<abbr id="mqomg"></abbr><center id="mqomg"><optgroup id="mqomg"></optgroup></center>

<button id="mqomg"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧

發(fā)布于 2024-9-5 12:50

瀏覽

0收藏

今天給大家分享JinaAI提出的一個新的技巧。

正常在處理大規(guī)模數(shù)據(jù)建索引的時候，一般我們需要先對文檔進(jìn)行分塊，建立向量索引。而這個分塊大小，設(shè)置的都是比較短的，比如512。一方面是早期bert的處理長度的限制，另一個方面是如果文本太長，包含的信息就越多，那么可能比較難用一個向量來表征出來。

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

對于前者，如果持續(xù)關(guān)注向量模型的同學(xué)可以發(fā)現(xiàn)，無論是開源的BGE系列，還是閉源的API，都在往一個較長的上下文靠齊（比如說8192）。那這就有一些矛盾了，如果工業(yè)界只需要512的上下文的向量模型，為什么還要往更長的8192模型發(fā)展呢？

對于傳統(tǒng)的分塊，類似于固定長度的分塊。帶來的一個比較大的問題是，上下文缺失。就像下圖一樣，一個句子的主語在段落開頭，后面的段落/句子中，有一些代詞比如 It's， The city等等來表示主語。這種情況下確實主語的句子基本上就變得比較斷章取義了~

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

與先分塊后向量化不同，JinaAI最新提出的“Late Chunking”方法是一個相反的步驟，首先將整個文本或盡可能多的文本輸入到嵌入模型中。在輸出層會為每個token生成一個向量表示，其中包含整個文本的文本信息。然后我們可以按照需要的塊大小對對向量進(jìn)行聚合得到每個chunk的embedding。這樣的優(yōu)勢是，充分利用長上下文模型的優(yōu)勢，同時又不會讓每個塊的信息過多，干擾向量表征。

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

在測試中，在所有情況下，與常規(guī)的分塊相比，Late Chunking提高了召回ndcg@10。在某些情況下，它的性能也優(yōu)于將整個文檔編碼為單個嵌入。并且，文檔越長，Late Chunking策略就越有效。

告別傳統(tǒng)的文檔切塊！JinaAI提出Late Chunking技巧-AI.x社區(qū) 圖片

開源的實驗代碼：??https://colab.research.google.com/drive/15vNZb6AsU7byjYoaEtXuNu567JWNzXOz?usp=sharing&ref=jina-ai-gmbh.ghost.io??

本文轉(zhuǎn)載自 ??探索AGI??，作者：獼猴桃

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Unstructured專家分享RAG應(yīng)用中文檔分塊（Chunking）的最佳實踐

Syrupup ? 5112瀏覽 ? 0回復(fù)
顛覆傳統(tǒng)OCR輕松搞定復(fù)雜PDF的工具

恰似驚鴻 ? 3904瀏覽 ? 0回復(fù)
Cursor 實用技巧指南

玄姐聊AGI ? 3070瀏覽 ? 0回復(fù)
RAG 的未來 - 自動文檔檢索

探索AGI ? 2474瀏覽 ? 0回復(fù)
一個輕量級RAG文本切塊項目Chonkie

PaperAgent ? 2957瀏覽 ? 0回復(fù)
微調(diào)大型語言模型（LLM）的五個技巧

51CTO內(nèi)容精選 ? 2716瀏覽 ? 0回復(fù)
減少LLM幻覺的五大技巧和方法

51CTO內(nèi)容精選 ? 2509瀏覽 ? 0回復(fù)
突破傳統(tǒng)語言模型的局限：Meta AI的全新大概念模型（LCMs）解讀

Halo咯咯 ? 2427瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 2945瀏覽 ? 0回復(fù)
使用 DeepSeek 必備的十個技巧，建議收藏！

玄姐聊AGI ? 6398瀏覽 ? 0回復(fù)
從此告別收藏即吃灰！DeepSeek玩轉(zhuǎn)飛書的終極攻略

Bx玩AI ? 3288瀏覽 ? 0回復(fù)
DeepSearcher 開源：告別傳統(tǒng) RAG，私有數(shù)據(jù)+DeepSeek，打造本地版 Deep Research

玄姐聊AGI ? 4562瀏覽 ? 0回復(fù)
10個超級實用的DeepSeek提問技巧

數(shù)師兄 ? 1862瀏覽 ? 0回復(fù)
傳統(tǒng)分塊已死？Agentic Chunking拯救語義斷裂，實測RAG準(zhǔn)確率飆升40%，LLM開發(fā)者必看！

AI博物院 ? 3406瀏覽 ? 0回復(fù)
大語言模型：表面的推理能力背后是出色的規(guī)劃技巧

51CTO內(nèi)容精選 ? 2527瀏覽 ? 0回復(fù)
DeepSearcher 開源：告別傳統(tǒng) RAG，私有數(shù)據(jù)+DeepSeek，打造本地版 Deep Research

玄姐聊AGI ? 3825瀏覽 ? 0回復(fù)
文檔解析神器MinerU：2.5萬星標(biāo)！支持GPU加速，輕松應(yīng)對復(fù)雜文檔

AI博物院 ? 6914瀏覽 ? 0回復(fù)
大模型調(diào)參技巧—如何實現(xiàn)超參的跨模型尺度遷移

shizhi02 ? 1815瀏覽 ? 0回復(fù)
告別傳統(tǒng) RAG，私有知識庫 + DeepSeek，打造本地版 Deep Research

玄姐聊AGI ? 1475瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

谷歌又來砸飯碗！免費(fèi)AI Agent發(fā)布，程序員狂喜 1天前發(fā)布
AI Agents開源工具棧全解析~ 2025-06-16 00:17:05發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實測來了 0回復(fù)

上一篇： Agent的進(jìn)化：RAISE如何讓AI更聰明？

下一篇：一款由知識圖譜引擎驅(qū)動的創(chuàng)新Agent框架

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：人人干人人草 | 99亚洲视频| 国产精品久久久久无码av | 天天干天天插天天 | 91九色麻豆 | 97国产超碰 | 日本a视频 | 国产日韩欧美制服另类 | 日韩在线 | 黄色免费在线网址 | 欧美激情在线精品一区二区三区 | 一级大片 | 天堂一区二区三区 | 福利网址 | 亚洲综合一区二区三区 | 久久精品免费 | 91观看 | 蜜桃毛片 | 亚洲三区视频 | 日韩精品一 | 密乳av | 97久久精品午夜一区二区 | 国产成都精品91一区二区三 | 黄色毛片网站在线观看 | 欧美一区二 | 视频一区二区在线观看 | 国产欧美一区二区精品久导航 | 91视频在线看 | 午夜精品 | 91一区| 黑人精品欧美一区二区蜜桃 | 精品欧美一区二区在线观看视频 | 午夜私人影院 | 亚洲国产中文字幕 | 国产精久久久久久 | 天天搞天天搞 | 一区二区三区视频在线观看 | 欧美国产一区二区 | 国产在线精品一区二区 | 午夜精品网站 | 亚洲精品日韩一区二区电影 |

<strike id="oqy8m"><tbody id="oqy8m"></tbody></strike>

<bdo id="oqy8m"><th id="oqy8m"></th></bdo>

<table id="oqy8m"></table>

<button id="oqy8m"></button>