成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型幻覺率排行:GPT-4 3%最低,谷歌Palm竟然高達27.2%

人工智能 新聞
為了確定這個排行榜,Vectara 使用各種開源數據集對摘要模型進行了事實一致性研究,并訓練了一個模型來檢測 LLM 輸出中的幻覺。

人工智能發展進步神速,但問題頻出。OpenAI 新出的 GPT 視覺 API 前腳讓人感嘆效果極好,后腳又因幻覺問題令人不禁吐槽。

幻覺一直是大模型的致命缺陷。由于數據集龐雜,其中難免會有過時、錯誤的信息,導致輸出質量面臨著嚴峻的考驗。過多重復的信息還會使大模型形成偏見,這也是幻覺的一種。但是幻覺并非無解命題。開發過程中對數據集慎重使用、嚴格過濾,構建高質量數據集,以及優化模型結構、訓練方式都能在一定程度上緩解幻覺問題。

流行的大模型有那么多,它們對于幻覺的緩解效果如何?這里有個排行榜明確地對比了它們的差距。

圖片

該排行榜由專注于 AI 的 Vectara 平臺發布。排行榜更新于 2023 年 11 月 1 日,Vectara 表示后續會隨著模型的更新繼續跟進幻覺評估。

項目地址:https://github.com/vectara/hallucination-leaderboard

為了確定這個排行榜,Vectara 使用各種開源數據集對摘要模型進行了事實一致性研究,并訓練了一個模型來檢測 LLM 輸出中的幻覺。他們使用了一個媲美 SOTA 模型,然后通過公共 API 向上述每個 LLM 輸送了 1000 篇簡短文檔,并要求它們僅使用文檔中呈現的事實對每篇文檔進行總結。在這 1000 篇文檔中,只有 831 篇文檔被每個模型總結,其余文檔由于內容限制被至少一個模型拒絕回答。利用這 831 份文件,Vectara 計算了每個模型的總體準確率和幻覺率。每個模型拒絕響應 prompt 的比率詳見 「Answer Rate」一欄。發送給模型的內容都不包含非法或 不安全內容,但其中的觸發詞足以觸發某些內容過濾器。這些文件主要來自 CNN / 每日郵報語料庫。

圖片

需要注意的是,Vectara 評估的是摘要準確性,而不是整體事實準確性。這樣可以比較模型對所提供信息的響應。換句話說,評估的是輸出摘要是否與源文件「事實一致」。由于不知道每個 LLM 是在什么數據上訓練的,因此對于任何特別問題來說,確定幻覺都是不可能的。此外,要建立一個能夠在沒有參考源的情況下確定回答是否是幻覺的模型,就需要解決幻覺問題,而且需要訓練一個與被評估的 LLM 一樣大或更大的模型。因此,Vectara 選擇在總結任務中查看幻覺率,因為這樣的類比可以很好地確定模型整體真實性。

檢測幻覺模型地址:https://huggingface.co/vectara/hallucination_evaluation_model

此外,LLM 越來越多地用于 RAG(Retrieval Augmented Generation,檢索增強生成)管道來回答用戶的查詢,例如 Bing Chat 和谷歌聊天集成。在 RAG 系統中,模型被部署為搜索結果的匯總器,因此該排行榜也是衡量模型在 RAG 系統中使用時準確性的良好指標。

由于 GPT-4 一貫的優秀表現,它的幻覺率最低似乎是意料之中的。但是有網友表示,GPT-3.5 與 GPT-4 并沒有非常大的差距是令他較為驚訝的。

LLaMA 2 緊追 GPT-4 與 GPT-3.5 之后,有著較好的表現。但谷歌大模型的表現實在不盡人意。有網友表示,谷歌 BARD 常用「我還在訓練中」來搪塞它的錯誤答案。

有了這樣的排行榜,能夠讓我們對于不同模型之間的優劣有更加直觀的判斷。前幾天,OpenAI 推出了 GPT-4 Turbo,這不,立刻有網友提議將其也更新在排行榜中。

下次的排行榜會是怎樣的,有沒有大幅變動,我們拭目以待。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-03 13:37:00

模型數據

2023-10-14 13:09:53

谷歌模型

2023-05-13 07:27:59

GPT-4PaLM 2人工智能

2024-05-20 08:40:00

2023-09-20 15:21:48

2023-12-09 14:30:50

2023-11-15 13:19:14

2023-10-14 17:24:49

2023-11-09 12:41:40

AI數據

2024-01-26 15:25:27

GPT-4人工智能大模型

2023-06-19 08:19:50

2023-10-12 14:18:06

2023-12-26 08:17:23

微軟GPT-4

2025-04-16 09:35:03

2023-06-05 12:32:48

模型論文

2024-12-18 13:24:30

谷歌AI大語言模型

2023-06-27 13:37:17

谷歌AI

2023-06-01 12:46:46

GPT-4數學OpenAI

2024-04-19 09:17:33

AI模型

2023-12-04 12:56:08

AI數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色综合久 | 国产日韩欧美二区 | 在线婷婷| 97久久精品午夜一区二区 | 成人在线视频观看 | 精品欧美一区免费观看α√ | 涩涩视频网 | 美女亚洲一区 | 久久99国产精品 | 亚洲福利在线观看 | 一区二区三区亚洲 | 免费看a| 欧美精品网站 | 中文字幕在线观看一区二区 | 91麻豆精品国产91久久久久久 | 自拍偷拍小视频 | 黄片毛片免费观看 | 99一区二区 | 国产精品一区二区三区在线 | 色综合国产 | 欧美日产国产成人免费图片 | 日韩欧美一区在线 | 97视频精品 | 少妇特黄a一区二区三区88av | 一区二区三区国产 | 三级黄色片在线播放 | 日韩精品一区二区三区免费观看 | 成人精品啪啪欧美成 | 精品成人在线 | 亚洲激情在线观看 | 精品国产一区久久 | 亚洲视频中文字幕 | 欧美区日韩区 | 亚洲久久| 精品国产一区二区在线 | 在线看91| 一区二区精品 | 国产午夜一级 | 成人高潮片免费视频欧美 | 午夜国产一区 | 国产精品久久久久久久久免费高清 |