成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

采用RAG和知識(shí)圖譜克服人工智能幻覺(jué)問(wèn)題

譯文 精選
人工智能
RAG創(chuàng)建了一組數(shù)據(jù),可以搜索與用戶查詢相關(guān)的語(yǔ)義匹配,然后將這些匹配與LLM共享,以便包含在響應(yīng)中。隨著時(shí)間的推移,向量數(shù)據(jù)集可以添加新的或額外的數(shù)據(jù),因此可以將相關(guān)和及時(shí)的數(shù)據(jù)包含在響應(yīng)中。

譯者 | 李睿

審校 | 重樓

將RAG與知識(shí)圖譜相結(jié)合可以提高生成式人工智能應(yīng)用程序的準(zhǔn)確性,可以使用現(xiàn)有的數(shù)據(jù)庫(kù)來(lái)完成。

生成式人工智能依賴于數(shù)據(jù)來(lái)構(gòu)建對(duì)用戶查詢的響應(yīng)。而訓(xùn)練大型語(yǔ)言模型(LLM)需要使用大量數(shù)據(jù),例如OpenAI公司的GPT-3使用了CommonCrawl數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集擁有570GB字節(jié)的數(shù)據(jù)和4000億個(gè)令牌。雖然這些數(shù)據(jù)集的規(guī)模龐大,但都是時(shí)間快照,無(wú)法響應(yīng)圍繞當(dāng)前發(fā)生的事件的查詢。人工智能的反應(yīng)也可能包括“幻覺(jué)”——提供看似合理但并不真實(shí)的信息。根據(jù)Vectara公司發(fā)布的幻覺(jué)排行榜,即使是表現(xiàn)最好的LLM系列 (目前是OpenAI公司開(kāi)發(fā)的產(chǎn)品),也存在1.5%至1.9%的幻覺(jué)率。

因此,單獨(dú)使用LLM面臨兩個(gè)問(wèn)題:答案可能過(guò)時(shí)或者錯(cuò)誤。為了克服這些潛在的問(wèn)題,組織可以使用數(shù)據(jù)流將新信息獲取到他們的數(shù)據(jù)集中,并部署檢索增強(qiáng)生成(RAG)以與生成式人工智能一起使用的方式對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行編碼。

RAG創(chuàng)建了一組數(shù)據(jù),可以搜索與用戶查詢相關(guān)的語(yǔ)義匹配,然后將這些匹配與LLM共享,以便包含在響應(yīng)中。隨著時(shí)間的推移,向量數(shù)據(jù)集可以添加新的或額外的數(shù)據(jù),因此可以將相關(guān)和及時(shí)的數(shù)據(jù)包含在響應(yīng)中。

RAG面臨的挑戰(zhàn)

盡管RAG使組織能夠?qū)⒆约旱臄?shù)據(jù)與生成式人工智能服務(wù)結(jié)合使用,但它并不完美。在將RAG部署到生產(chǎn)環(huán)境中遇到的一個(gè)挑戰(zhàn)是,它無(wú)法處理包含相似或相同信息的大量文檔之間的搜索。當(dāng)這些文件被分塊并轉(zhuǎn)換成向量嵌入時(shí),每個(gè)文件都有可供搜索的數(shù)據(jù)。當(dāng)這些文件中的每一個(gè)都有非常相似的塊時(shí),找到與該請(qǐng)求匹配的正確數(shù)據(jù)會(huì)變得更加困難。當(dāng)查詢的答案存在于多個(gè)相互交叉引用的文檔中時(shí),RAG也會(huì)遇到困難。而RAG不知道這些文檔之間的關(guān)系。

例如,假設(shè)組織已經(jīng)開(kāi)發(fā)了一款聊天機(jī)器人服務(wù),它可以調(diào)用其產(chǎn)品數(shù)據(jù)來(lái)回答客戶的查詢。組織已經(jīng)將小部件目錄轉(zhuǎn)換為向量數(shù)據(jù),但是這些小部件都非常相似。當(dāng)客戶查詢聊天機(jī)器人時(shí),即使有RAG,如何確保提供的響應(yīng)是準(zhǔn)確的?如果這些目錄包含指向其他具有額外場(chǎng)景的文檔的鏈接怎么辦?提出不準(zhǔn)確的建議或提供不準(zhǔn)確的查詢將影響客戶互動(dòng)。

回答這個(gè)問(wèn)題是考慮采用一種不同的知識(shí)管理方法,為RAG所擅長(zhǎng)的工作提供補(bǔ)充。微軟研究院在今年早些時(shí)候發(fā)布了一份關(guān)于將知識(shí)圖譜和RAG結(jié)合使用的研究報(bào)告,其中包括一種名為GraphRAG的技術(shù)。

知識(shí)圖譜將數(shù)據(jù)點(diǎn)表示為“節(jié)點(diǎn)”和“邊”,而不是將數(shù)據(jù)存儲(chǔ)在傳統(tǒng)搜索的行和列中,也不是作為向量搜索的嵌入。節(jié)點(diǎn)將是一個(gè)獨(dú)特的事實(shí)或特征,并且邊將連接與該事實(shí)有相關(guān)關(guān)系的所有節(jié)點(diǎn)。在產(chǎn)品目錄的示例中,節(jié)點(diǎn)可能是單個(gè)產(chǎn)品,而邊將是每個(gè)產(chǎn)品所具有的相似特征,例如尺寸或顏色。

向知識(shí)圖譜發(fā)送查詢涉及查找與該搜索相關(guān)的所有實(shí)體,然后創(chuàng)建一個(gè)知識(shí)子圖,將這些實(shí)體匯集在一起。這樣可以檢索出與查詢相關(guān)的信息,然后將其返回給LLM并用于構(gòu)建響應(yīng)。這意味著可以處理具有多個(gè)相似數(shù)據(jù)源的問(wèn)題。與其將每個(gè)源視為不同的源并多次檢索相同的數(shù)據(jù),不如只檢索一次數(shù)據(jù)。

在RAG中使用知識(shí)圖譜

要在RAG應(yīng)用程序中使用知識(shí)圖譜,組織可以使用現(xiàn)有的、經(jīng)過(guò)測(cè)試且已知事先正確數(shù)據(jù)的知識(shí)圖譜,也可以創(chuàng)建自己的知識(shí)圖譜。當(dāng)組織使用自己的數(shù)據(jù)(例如產(chǎn)品目錄)時(shí),需要整理數(shù)據(jù)并檢查其準(zhǔn)確性。

組織可以使用自己的生成式人工智能方法來(lái)幫助實(shí)現(xiàn)這一目標(biāo)。LLM的構(gòu)建是為了從內(nèi)容中提取信息,并在需要時(shí)對(duì)數(shù)據(jù)進(jìn)行匯總。對(duì)于知識(shí)圖譜,可以自動(dòng)地以正確的格式構(gòu)建數(shù)據(jù),并且隨著時(shí)間的推移添加更多的數(shù)據(jù),支持對(duì)知識(shí)圖譜的任何更新或更改。流行的LangChain服務(wù)上有多個(gè)工具可以查詢文件,然后提供知識(shí)圖譜,包括LLM Graph Transformer和Diffbot,而知識(shí)提取工具REBEL是另一種選擇。

對(duì)于專用的圖分析項(xiàng)目,可能需要采用一個(gè)完整的圖數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)可以使用Gremlin和Cipher等圖形語(yǔ)言運(yùn)行完整的查詢。然而,為了支持作為RAG應(yīng)用程序一部分的知識(shí)圖譜請(qǐng)求,只需要運(yùn)行同時(shí)覆蓋兩三個(gè)節(jié)點(diǎn)的小搜索。這意味著請(qǐng)求通常會(huì)表示為幾輪簡(jiǎn)單的查詢(每步一個(gè))或SQL連接的形式。在更大的數(shù)據(jù)集中進(jìn)行搜索不太可能返回正確的響應(yīng)——事實(shí)上,這可能會(huì)導(dǎo)致查詢失控,這些查詢處理時(shí)間過(guò)長(zhǎng)或?qū)嶋H上無(wú)法改善整體響應(yīng)。

因此,可以使用現(xiàn)有的數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)知識(shí)圖譜數(shù)據(jù),而不是部署額外的圖數(shù)據(jù)庫(kù)。這也簡(jiǎn)化了數(shù)據(jù)運(yùn)營(yíng)方面的工作,因?yàn)榭梢詼p少隨時(shí)間推移而需要更新新數(shù)據(jù)的數(shù)據(jù)平臺(tái)數(shù)量。

將知識(shí)圖譜與RAG相結(jié)合可以提高生成式人工智能應(yīng)用程序在響應(yīng)用戶查詢時(shí)的準(zhǔn)確性。通過(guò)將不同的數(shù)據(jù)管理技術(shù)相結(jié)合,可以在數(shù)據(jù)性能和請(qǐng)求中的語(yǔ)義理解方面獲得兩全其美的效果。

原文標(biāo)題:Overcoming AI hallucinations with RAG and knowledge graphs,作者:Dom Couldwell

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2025-06-03 06:03:06

2025-06-09 03:00:00

人工智能AI知識(shí)圖譜

2024-05-09 10:12:58

人工智能GPT-4OpenAI

2025-06-06 01:00:00

AI人工智能知識(shí)圖譜

2025-06-09 09:10:26

2022-05-31 10:51:21

人工智能AI

2020-12-18 11:59:21

人工智能知識(shí)圖譜

2025-06-05 09:09:50

2025-06-05 02:00:00

人工智能知識(shí)圖譜AI

2025-06-03 15:00:04

2025-06-03 06:14:37

2024-01-09 14:05:15

大型語(yǔ)言模型RAG向量數(shù)據(jù)庫(kù)

2022-11-29 16:57:18

人工智能人力資源CIO

2024-04-07 08:40:33

人工智能AI算法

2024-01-10 07:42:59

人工智能模型RAG

2020-09-18 17:30:02

人工智能

2017-10-11 15:00:44

2021-03-03 14:04:53

人工智能知識(shí)圖譜

2023-10-30 11:37:12

2011-01-28 15:54:40

人機(jī)大戰(zhàn)沃森
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品国产乱码久久久久久久久 | 一级毛片成人免费看a | 亚洲国产偷 | 欧美日本韩国一区二区三区 | 欧美一区二区三区视频 | 日韩一级精品视频在线观看 | 涩涩视频在线看 | 欧美中文一区 | 99热播精品 | 欧美精 | 四虎影视一区二区 | 久久精品国产99国产精品亚洲 | 欧美久久久网站 | 久久久久1 | 视频一区在线观看 | 国产农村妇女精品一区 | 一级毛片视频在线 | 日本视频一区二区 | 成人久草 | 91久久精品一区 | av在线一区二区 | 麻豆一区一区三区四区 | 欧美视频成人 | 国产精品不卡 | 在线精品一区二区 | 在线视频第一页 | 国产黄色网址在线观看 | 久久午夜精品福利一区二区 | 国产成人影院 | 国产 日韩 欧美 中文 在线播放 | 国产在线观看网站 | 女同videos另类| 亚洲 日本 欧美 中文幕 | 国产丝袜一区二区三区免费视频 | 成人久草| 久久久久国产一区二区三区 | www国产亚洲精品久久网站 | 青青久草 | 激情av免费看 | 98久久| 九一在线观看 |