成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM) 原創(chuàng)

發(fā)布于 2024-11-11 11:24
瀏覽
0收藏

01、概述

在過去的幾年中,大型語言模型(LLMs)引領(lǐng)了人工智能領(lǐng)域的革命。然而,盡管這些模型在理解和生成語言方面表現(xiàn)出色,它們?nèi)匀淮嬖谝恍┕逃械木窒扌浴V饕ㄖR截止日期帶來的信息更新滯后、生成貌似正確但實際上錯誤的信息,以及知識庫中可能存在的不準(zhǔn)確信息和偏見。這些問題使得我們必須尋找解決方案,以提升LLMs的性能,特別是在特定領(lǐng)域的應(yīng)用上。

02、LLM的微調(diào)(Fine-Tuning)

為了應(yīng)對上述問題,微調(diào)LLM是一種有效的方法。這一過程通過監(jiān)督學(xué)習(xí)來補(bǔ)充模型的內(nèi)部知識,具體做法是引入額外的問答對。例如,一些開源工具如WizardLM可以利用給定的訓(xùn)練數(shù)據(jù)集生成這些問答對。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)-AI.x社區(qū)

然而,定期微調(diào)并非易事,尤其是在信息快速變化的情況下。微調(diào)適用的場景通常是數(shù)據(jù)不頻繁變化的領(lǐng)域。此外,微調(diào)并不能完全消除幻覺(hallucination)的問題。模型無法明確引用信息的來源,這使得我們難以判斷信息是來源于預(yù)訓(xùn)練數(shù)據(jù)還是微調(diào)數(shù)據(jù)。微調(diào)還需要設(shè)置訓(xùn)練管道,并使用具備足夠處理能力的GPU。此外,微調(diào)并沒有任何訪問控制機(jī)制,所有更新的知識對所有用戶開放。

03、檢索增強(qiáng)生成(RAG)

檢索增強(qiáng)生成(RAG)為保持知識更新和減少幻覺提供了一種解決方案。RAG允許用戶構(gòu)建自己的特定知識庫,并將LLM的功能限制在該知識庫內(nèi)。這對希望僅訪問非公開內(nèi)部數(shù)據(jù)源的信息組織特別有利,尤其是面對快速變化的數(shù)據(jù)時。此外,RAG還為組織提供了一個安全、隔離的環(huán)境,以便在個性化對話代理中利用其獨特的數(shù)據(jù)。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)-AI.x社區(qū)

RAG的工作流程可以概括為:用戶的提示被轉(zhuǎn)換為嵌入(embeddings),與向量數(shù)據(jù)庫匹配,并結(jié)合檢索到的數(shù)據(jù)通過LLM生成響應(yīng)。這種方式使得信息檢索更為高效,確保語義相似的信息被相鄰存儲,快速響應(yīng)用戶的查詢。

向量數(shù)據(jù)庫的作用

外部數(shù)據(jù)存儲在向量數(shù)據(jù)庫中,這是一種將信息以嵌入形式存儲的高維系統(tǒng)。這種數(shù)據(jù)庫通過語義相似性來索引和存儲項,使得信息檢索速度更快。外部數(shù)據(jù)首先使用嵌入模型(如OpenAI的Ada2、Cohere的co等)轉(zhuǎn)換為數(shù)值表示(嵌入)。然后,將這些嵌入分成適合LLM上下文窗口的適當(dāng)大小的塊。定期將新數(shù)據(jù)集成到向量數(shù)據(jù)庫中也相對簡單,開源向量數(shù)據(jù)庫如Weaviate、Milvus、Elasticsearch和Faiss都可以用于此目的。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)-AI.x社區(qū)

對于每個查詢或提示,嵌入模型首先將其轉(zhuǎn)換為嵌入,然后利用這些嵌入從向量數(shù)據(jù)庫中查找相關(guān)信息。隨后,將組合后的提示和信息嵌入傳遞給大型語言模型,生成最終的響應(yīng)。

結(jié)構(gòu)化數(shù)據(jù)在RAG中的整合

除了網(wǎng)頁、PDF、PowerPoint演示文稿和文章等非結(jié)構(gòu)化數(shù)據(jù)源,結(jié)構(gòu)化數(shù)據(jù)(如知識圖譜)也可以作為重要的信息來源。使用知識圖譜-檢索增強(qiáng)生成(KG-RAG)能夠為提示提供更強(qiáng)大和一致的信息。得益于標(biāo)準(zhǔn)化的詞匯和自定義概念,知識圖譜有助于緩解基于向量數(shù)據(jù)庫的RAG中因語言差異造成的低質(zhì)量結(jié)果的問題。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)-AI.x社區(qū)

04、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合

知識圖譜的另一個優(yōu)點是能夠同時容納結(jié)構(gòu)化和非結(jié)構(gòu)化信息。舉個例子,考慮一個公司利用知識圖譜來管理和導(dǎo)航客戶關(guān)系及銷售流程的場景。知識圖譜可能包含銷售人員、客戶、交易和產(chǎn)品等節(jié)點。它們之間的關(guān)系可能包括“管理”、“購買”或“談判”。結(jié)構(gòu)化數(shù)據(jù)可能涉及銷售數(shù)據(jù)、客戶聯(lián)系信息和產(chǎn)品規(guī)格,而非結(jié)構(gòu)化數(shù)據(jù)則可能是銷售通話記錄、電子郵件交流和會議紀(jì)要。這種設(shè)置將使得聊天機(jī)器人能夠回答諸如“與客戶X的交易處于談判階段的有哪些?”或“展示關(guān)于產(chǎn)品Y的最近溝通記錄”等查詢。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)-AI.x社區(qū)

開源框架如LangChain和LlamaIndex可以促進(jìn)同時使用非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)的RAG應(yīng)用程序的開發(fā)。LlamaIndex能夠自動化構(gòu)建知識圖譜過程中的主要步驟,如實體提取、關(guān)系提取和圖譜填充。流行的圖數(shù)據(jù)庫Neo4j可以用于存儲和檢索RAG應(yīng)用中的結(jié)構(gòu)化和非結(jié)構(gòu)化信息。OpenAI與LangChain和Neo4j的功能可以用于從非結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建知識圖譜。

使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)-AI.x社區(qū)

05、結(jié)論

隨著技術(shù)的不斷發(fā)展,增強(qiáng)大型語言模型的能力變得愈加重要。通過整合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),我們不僅可以提高LLM的知識更新能力,還能顯著改善其在特定領(lǐng)域的表現(xiàn)。檢索增強(qiáng)生成(RAG)和知識圖譜的結(jié)合為組織提供了一個靈活、安全的環(huán)境,以更有效地利用其獨特數(shù)據(jù)。這種方法的成功實施,將為未來的人工智能應(yīng)用開辟新的可能性,讓我們對LLM的前景充滿期待。

?

本文轉(zhuǎn)載自公眾號Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/1jQFYAoxwwh9NhCvSLrfpQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 伦理午夜电影免费观看 | 不卡在线视频 | 日韩欧美国产不卡 | 欧美精品综合 | 日本久久福利 | 中国黄色毛片视频 | 不卡视频一区二区三区 | 亚洲欧洲激情 | 全免一级毛片 | 日韩欧美三区 | 欧美精品片 | 成人在线精品 | 男插女下体视频 | 视频一二区| 成人超碰在线 | 91国产精品在线 | 久久精品国产精品青草 | 久久久久中文字幕 | 一区二区三区小视频 | av手机在线播放 | 久久6视频 | 伊人狠狠| 草樱av | 国产精品一区久久久 | 亚洲日韩中文字幕 | www.99热.com| 91精品国产色综合久久 | 成人无遮挡毛片免费看 | 91在线视频免费观看 | 国产一区二区 | 亚洲一区二区三区免费在线 | 久久99国产精品 | 亚洲精品亚洲人成人网 | 亚洲精品播放 | 精品国产一区二区三区免费 | 一级片av| 国产精品99免费视频 | 999久久久久久久久 国产欧美在线观看 | 成人av网站在线观看 | 精品国产欧美一区二区三区成人 | 色吧久久 |