成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

比人類便宜20倍!谷歌DeepMind推出「超人」AI系統

人工智能 新聞
大模型的幻覺問題怎么解?谷歌DeepMind:用AI來做同行評審!事實核驗正確率超過人類,而且便宜20倍。

AI的同行評審來了!

一直以來,大語言模型胡說八道(幻覺)的問題最讓人頭疼,而近日,來自谷歌DeepMind的一項研究引發網友熱議:

大模型的幻覺問題,好像被終結了?

圖片

論文地址:https://arxiv.org/pdf/2403.18802.pdf

項目地址:https://github.com/google-deepmind/long-form-factuality

在這篇工作中,研究人員介紹了一種名為 "搜索增強事實性評估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

對于LLM的長篇回答,SAFE使用其他的LLM,將答案文本分解為單個敘述,然后使用諸如RAG等方法,來確定每個敘述的準確性。

圖片

——簡單來說就是:AI答題,AI判卷,AI告訴AI你這里說的不對。

真正的「同行」評審。

另外,研究還發現,相比于人工標注和判斷事實準確性,使用AI不但便宜20倍,而且還更靠譜!

圖片

目前這個項目已在GitHub上開源。

長文本事實性檢驗

大語言模型經常胡說八道,尤其是有關開放式的提問、以及生成較長的回答時。

比如小編隨手測試一下當前最流行的幾個大模型。

ChatGPT:雖然我的知識儲備只到2021年9月,但我敢于毫不猶豫地回答任何問題。

圖片

Claude 3:我可以謙卑且胡說八道。

圖片

為了對大模型的長篇回答進行事實性評估和基準測試,研究人員首先使用GPT-4生成LongFact,這是一個包含數千個問題的提示集,涵蓋38個主題。

LongFact包含兩個任務:LongFact-Concepts和LongFact-Objects,前者針對概念、后者針對實體。每個包括30個提示,每個任務各有1140個提示。

圖片

然后,使用搜索增強事實性評估器(SAFE),利用LLM將長篇回復分解為一組單獨的事實,并使用多步驟推理過程來評估每個事實的準確性,包括使用網絡搜索來檢驗。

此外,作者建議將F1分數進行擴展,提出了一種兼顧精度和召回率的聚合指標。

SAFE工作流程

如上圖所示,首先提示語言模型將長篇響應中的每個句子拆分為單個事實。

然后,通過指示模型將模糊的引用(代詞等)替換為上下文中引用的適當實體,將每個單獨的事實修改為自包含的事實。

為了對每個獨立的個體事實進行評分,研究人員使用語言模型來推理該事實是否與上下文中相關,并且使用多步驟方法對每個相關事實進行評定。

如上圖所示,在每個步驟中,模型都會根據要評分的事實和先前獲得的搜索結果生成搜索查詢。

在設定的步驟數之后,模型執行推理以確定搜索結果是否支持該事實。

比人類更好用

首先,直接比較對于每個事實的SAFE注釋和人類注釋,可以發現,SAFE在72.0%的單個事實上與人類一致(見下圖),表明SAFE幾乎達到了人類的水平。

圖片

——這還沒完,跟人類一致并不代表正確,如果拿正確性PK一下呢?

研究人員在所有SAFE注釋與人類注釋產生分歧的案例中,隨機抽樣出100個,然后人工重新比較到底誰是正確的(通過網絡搜索等途徑)。

圖片

最終結果讓人震驚:在這些分歧案例中,SAFE注釋的正確率為76%,而人工注釋的正確率僅為19%(見上圖),——SAFE以將近4比1的勝率戰勝了人類。

然后我們再看一下成本:總共496個提示的評分,SAFE發出的 GPT-3.5-Turbo API調用成本為64.57美元,Serper API調用成本為 31.74 美元,因此總成本為96.31美元,相當于每個響應0.19美元。

而人類標注這邊,每個響應的成本為4美元,——AI比人類便宜了整整20多倍!

對此,有網友評價,LLM在事實核驗上有「超人」級別的表現。

圖片

評分結果

據此,研究人員在LongFact上對四個模型系列(Gemini、GPT、Claude和PaLM-2)的13個語言模型進行了基準測試,結果如下圖所示:

圖片

研究人員發現,一般情況下,較大的模型可以實現更好的長格式事實性。

例如,GPT-4-Turbo比GPT-4好,GPT-4比GPT-3.5-Turbo好,Gemini-Ultra比Gemini-Pro更真實,而PaLM-2-L-IT-RLHF比PaLM-2-L-IT要好。

在兩個選定的K值下,三個表現最好的模型(GPT-4-Turbo、GeminiUltra和PaLM-2-L-IT-RLHF),都是各自家族中超大杯。

另外,Gemini、Claude-3-Opus和Claude-3-Sonnet等新模型系列正在趕超GPT-4,——畢竟GPT-4(gpt-4-0613)已經有點舊了。

是誤導嗎?

對于人類在這項測試中顏面盡失的結果,我們不免有些懷疑,成本應該是比不過AI,但是準確性也會輸?

Gary Marcus表示,你這里面關于人類的信息太少了?人類標注員到底是什么水平?

為了真正展示超人的表現,SAFE需要與專業的人類事實核查員進行基準測試,而不僅僅是眾包工人。人工評分者的具體細節,例如他們的資格、薪酬和事實核查過程,對于比較的結果至關重要。

「這使得定性具有誤導性。」

當然了,SAFE的明顯優勢就是成本,隨著語言模型生成的信息量不斷爆炸式增長,擁有一種經濟且可擴展的方式,來進行事實核驗將變得越來越重要。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-03-29 13:55:05

AI模型

2023-03-29 19:35:43

ChatGPT標注數據

2023-03-31 13:23:31

ChatGPTNLPMTurk

2019-10-22 15:19:27

AI 數據人工智能

2023-03-29 15:14:15

數據AI

2022-02-18 09:53:17

AI芯片設計

2023-05-30 12:50:16

2023-09-01 13:36:24

2023-08-30 07:29:39

SynthID谷歌

2024-12-17 12:53:45

AI自我進化谷歌

2016-12-02 20:10:22

人工智能唇語序列

2023-08-13 14:53:06

AI效率人工智能

2023-11-21 14:48:11

2024-01-07 22:58:56

2021-03-05 16:14:08

AI 數據人工智能

2024-04-07 08:50:00

谷歌框架

2024-06-25 10:43:39

AI?人工智能

2023-09-18 13:14:00

AI工具

2024-05-20 15:40:00

AI數學

2023-09-20 12:58:00

訓練研究
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 毛片电影 | 日韩欧美三级在线 | 无码一区二区三区视频 | 色啪网| 国产日韩精品一区二区 | 最近中文字幕第一页 | 狠狠插天天干 | 国产免费色 | 国产目拍亚洲精品99久久精品 | 国产超碰人人爽人人做人人爱 | 91久久爽久久爽爽久久片 | 久久亚洲二区 | 操久久| 在线a视频网站 | 久久久久久久99 | www.国产精品 | 日本韩国欧美在线观看 | 国产亚洲精品久久情网 | 精品一区在线免费观看 | 中文字幕av亚洲精品一部二部 | 在线免费观看黄a | 亚洲人成一区二区三区性色 | 免费观看羞羞视频网站 | 国产精品久久国产精品久久 | 国产精品久久久久久一区二区三区 | 国产精品1区2区3区 男女啪啪高潮无遮挡免费动态 | 天天搞天天操 | 亚洲国产二区 | 久久久久久99 | 日韩久久久久久 | 欧美午夜精品久久久久久浪潮 | 久久久久久久一区 | 一区二区三区在线播放 | 久久美女视频 | 午夜视频免费网站 | 国产婷婷| av黄色在线观看 | 久久久久久99 | 亚洲高清在线 | 7777奇米影视 | 麻豆一区一区三区四区 |