成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT性能最多提升214%,刷新七個榜單!IDEA、港科大廣州等提出ToG思維圖譜

人工智能
與IO、CoT、CoT-SC等不同prompting策略下的ChatGPT(GPT-3.5)相比,Think-on-Graph在所有數據集上的表現都顯著更優。以Zeroshot-RE數據集中的對比為例,基于CoT的ChatGPT精度為28.8%,而同底座的Think-on-Graph精度為88%。

大模型雖好,但「一本正經的胡說八道」的問題該怎么解?

在金融、法律、醫療等嚴肅領域,幻覺問題一直是制約大模型落地應用的主要瓶頸。

如何彌補這部分缺陷,使更多行業能快速加入對新一輪生產力變革的探索,是當下AI研究的重要課題,其中,大模型(LLM)與知識圖譜(KG)的融合來彌補前者的能力短板,是頗受關注的研究方向。

最近,來自IDEA研究院、微軟亞洲研究院、香港科技大學、香港科技大學(廣州)、廈門大學和美國南加州大學的研究團隊推出Think-on-Graph(思維圖譜)技術,通過LLM與KG的緊耦合交互,驅動LLM agent在知識圖譜上「思考」,逐步搜索推理出最優答案。

圖片圖片

論文地址:https://arxiv.org/abs/2307.07697

代碼鏈接:https://github.com/IDEA-FinAI/ToG

下面,我們先用一個刁鉆的問題來認識Think-on-Graph的「腦回路」:如何客觀評價段譽和洪七公誰的武功更高強?(段譽出自《天龍八部》,洪七公出自《射雕英雄傳》,兩者未在同一部作品中出現。)

首先看看地表最強大模型GPT-4是怎么說的:

圖片圖片

由于LLM是經由海量碎片化語料訓練而成,此類線索分析型的推理問題確實對其挑戰很大。從回答中不難看出,除了幻覺現象的出現之外,在比較兩位人物的武功水平時,GPT-4著重羅列表象事實,缺乏深度的邏輯分析。那么, Think-on-Graph是怎樣解題的呢?

圖片圖片

首先,圖譜知識顯示,六脈神劍是大理段氏最強武功,而一陽指是大理段氏常用武功,大模型由此判斷「六脈神劍」強于「一陽指」;繼而推理出段譽武功強于以一陽指冠絕江湖的一燈大師。然后,又根據圖譜上的「一燈大師與洪七公同屬『華山四絕』」,推理出兩者武功相當。最終,段譽>一燈大師,而一燈大師=洪七公,于是得出結論:段譽武功更高。可見,融合了結構化知識與大模型推理能力的Think-on-Graph,不僅條理清晰,還提供了可追溯的推理鏈條。LLM從「翻譯官」變「跑腿」,與KG緊耦合實現深度推理眾所周之,大模型擅長理解、推理、生成與學習;知識圖譜則因其結構化的知識存儲方式,在邏輯鏈條推理上表現更佳,且具備更好的推理透明度與可信度。兩者是互補度極高的好拍檔,關鍵在于能否找到好的結合方式,據研究人員介紹,目前主流的方法有兩類。第一類是在模型預訓練或微調階段,將知識圖譜嵌入到一個高維向量空間,并與大模型的嵌入向量相融合。但此類方法不僅耗時、耗算力,也無法發揮知識圖譜的許多天然優勢(如:實時知識更新、可解釋性、推理可追溯等)。第二類路徑則利用知識圖譜的知識結構,通過prompt engineering來進行兩者的融合,這之中又分松耦合、緊耦合兩種范式。

圖片圖片

 松耦合范式中的LLM相當于「翻譯官」,理解用戶的自然語言輸入后,將其翻譯成知識圖譜中的查詢語言,將KG上的搜索結果反向翻譯給用戶,這種范式對知識圖譜本身的質量與完整度要求極高,忽略了大模型的內在知識與推理能力。

圖片圖片

 在Think-on-Graph所代表的緊耦合范式中,LLM變身「跑腿」,作為agent在KG的關聯實體上一步一步搜索推理出最優答案。因此,在每一步推理中,LLM都親自參與,與知識圖譜取長補短。在研究中,團隊用以下例子展示了緊耦合范式的優勢:堪培拉所在國家當前的多數黨是哪個黨派?

圖片圖片

 從上面例子中可以看出,ChatGPT由于信息滯后,給出了錯誤答案。松耦合范式下,盡管引入了包含最新信息的KG,但由于缺少「多數黨」信息,導致推理無法完成;而在緊耦合范式中,LLM自行推理出「議會制國家的政府首腦通常也是多數黨領袖」,彌補了KG中的信息缺失,繞道推理出正確答案。Think-on-Graph,高效的緊耦合新范式據研究團隊介紹,Think-on-Graph借鑒了Transformer的beam-search算法思路。該算法為一個可循環的迭代過程,每次循環需先后完成搜索剪枝、推理決策兩個任務。搜索剪枝用于找出最有希望成為正確答案的推理路徑,推理決策任務則通過LLM來判斷已有的候選推理路徑是否足以回答問題——如果判斷結果為否,則繼續迭代到下個循環。我們依然以「堪培拉所在國當前的多數黨是哪個黨派?」為例來解釋。 

圖片圖片

案例:用搜索寬度N=2的beam-search實現Think-on-Graph推理在搜索剪枝任務中,大模型從關鍵詞Canberra出發,匹配到知識圖譜中最接近(或一致)的實體,分別搜索了5個「關系→實體」對,并為它們打分(得分越高,則代表此新實體加入推理路徑中,可正確回答問題的能力越高)。       

圖片圖片

將分數從高到低排序后,LLM保留了得分最高的2個,形成兩條候選推理路徑:接下來,LLM對候選推理路徑進行評估,并將結果以Yes/No的形式反饋給算法。在案例中可見,LLM連續兩輪否決了候選路徑,直到完成第三輪迭代時,LLM才判斷已獲取回答問題的充分信息,因此停止算法迭代,向用戶輸出答案(該答案確為正確答案)。 

圖片圖片

大模型推理如何更可信?可解釋、可追溯、可修正研究團隊表示,Think-on-Graph算法還有效提升了大模型推理的可解釋性,并實現知識的可追溯、可糾錯與可修正。尤其是借助人工反饋與LLM推理能力,發現并修正知識圖譜中的錯誤信息,彌補LLM訓練時間長、知識更新慢的缺點。為測試此能力,我們設計了一個實驗:在前述「段譽與洪七公武功對比」案例的知識圖譜中,故意摻入錯誤信息「大理段氏的最強武功是一陽指,一般武功是六脈神劍」。

圖片圖片

   可見,盡管Think-on-Graph根據錯誤知識得出了錯誤答案,但由于算法內置的「自我反思」能力,當判斷答案可信度不足時,會自動回溯在知識圖譜上的推理路徑,檢查路徑中的所有三元組。此時,LLM將利用自有知識,將疑似有誤的三元組挑選出來,并向用戶反饋分析與糾錯建議。 

圖片圖片

7個新SOTA,深度推理較ChatGPT最多提升214%研究在四類知識密集型任務(KBQA, Open-Domain QA, Slot Filling, Fact Checking)的共9個數據集上,對Think-on-Graph的表現進行了評估。

圖片圖片

與IO、CoT、CoT-SC等不同prompting策略下的ChatGPT(GPT-3.5)相比,Think-on-Graph在所有數據集上的表現都顯著更優。以Zeroshot-RE數據集中的對比為例,基于CoT的ChatGPT精度為28.8%,而同底座的Think-on-Graph精度為88%。當底座模型升級為GPT-4后,Think-on-Graph的推理精度也明顯提升,在7個數據集上取得了SOTA,剩余數據集中的CWQ上也十分接近SOTA。值得注意的是,Think-on-Graph未在上述任何測試數據集上進行過監督學習性質的增量訓練或增量微調,體現出超強的即插即用能力。此外,研究者還發現,即便替換小規模的底座模型(如LLAMA2-70B),Think-on-Graph依然可在多個數據集上超越ChatGPT,這或可為大模型使用者提供一條低算力需求的技術路線選擇。

參考資料:

https://arxiv.org/abs/2307.07697

https://github.com/IDEA-FinAI/ToG

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-03-14 13:25:24

ChatGPT人工智能

2022-10-08 13:13:14

Python程序性能

2023-11-01 18:01:02

改進WakaTime編程

2022-08-17 09:54:57

Java性能優化

2023-04-13 15:40:59

模型論文

2023-11-09 15:10:00

訓練數據

2024-07-01 18:04:57

2025-06-12 11:56:30

模型框架開源

2024-09-26 06:21:59

Python代碼

2024-09-25 08:00:00

Python文件處理

2023-03-13 10:49:30

ChatGPT人力資源

2025-01-17 11:07:28

2024-06-04 00:00:02

實用插件IDEA

2025-01-10 08:38:16

2025-02-19 12:00:00

JavaScript代碼數組方法

2023-09-05 12:35:47

2024-09-20 09:37:31

2023-03-04 21:12:25

ChatGPTAI課程

2024-10-07 10:00:00

Python代碼編碼

2020-07-27 05:40:13

Python數據分析開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品无码久久久久 | 国产一区二区三区精品久久久 | 亚洲一区在线播放 | 成在线人视频免费视频 | 毛片一级网站 | 福利国产| 国产精品一区一区三区 | 国产99久久精品 | 国产成人jvid在线播放 | 国产成人精品一区二 | 国产免费视频 | 久久久做 | 日本三级做a全过程在线观看 | 亚洲精品永久免费 | 不卡欧美 | 中文字幕不卡视频在线观看 | 国产高清在线精品 | 成人精品久久久 | 99久久99| 精品视频在线播放 | 在线国产视频 | 国产精品国产三级国产aⅴ无密码 | 乱一性一乱一交一视频a∨ 色爱av | 天堂亚洲 | 蜜桃一区二区三区在线 | 成人在线视频网址 | 成人国产精品色哟哟 | 久久黄色网 | 91久久精品国产91久久性色tv | 91在线电影 | 欧美在线一区二区三区 | 免费观看色 | 日韩欧美久久 | 国产日韩一区二区三免费高清 | 在线视频一区二区 | 久久国产精品99久久久久 | 成人久久久 | 伊人伊成久久人综合网站 | 精品一区二区视频 | 91色啪 | 国产一区二区三区久久久久久久久 |