成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

長(zhǎng)文本信息準(zhǔn)確率超過(guò)ChatGPT,Meta提出降低大模型幻覺(jué)新方法

人工智能 新聞
所謂大模型幻覺(jué),就是輸出一些看似合理但完全不對(duì)的內(nèi)容。Meta此次提出的“驗(yàn)證鏈”(CoVe),是與“思維鏈”(CoT)相似的一種鏈?zhǔn)椒椒ā?/div>

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

大模型的幻覺(jué)問(wèn)題,又有新的解決方法了!

Meta AI實(shí)驗(yàn)室提出了一種“分而治之”的解決方案。

有了這個(gè)方案,Llama-65B輸出的信息準(zhǔn)確率提升了一倍,甚至超過(guò)了ChatGPT

所謂大模型幻覺(jué),就是輸出一些看似合理但完全不對(duì)的內(nèi)容。

Meta此次提出的“驗(yàn)證鏈”(CoVe),是與“思維鏈”(CoT)相似的一種鏈?zhǔn)椒椒?/span>

區(qū)別在于,“step-by-step”的思維鏈更關(guān)注邏輯推理,而驗(yàn)證鏈更注重事實(shí)信息

有網(wǎng)友看了之后發(fā)現(xiàn),這個(gè)驗(yàn)證鏈很像是自己用ChatGPT寫(xiě)代碼時(shí)的一種科學(xué)方法:

圖片

那么“驗(yàn)證鏈”究竟是個(gè)什么方法,“驗(yàn)證”的又是什么呢?

拆解答案,分而治之

驗(yàn)證鏈的核心思想,是把要驗(yàn)證的一大段內(nèi)容,拆解成一個(gè)個(gè)小的問(wèn)題,具體流程是這樣的:

首先,模型會(huì)根據(jù)用戶提出的問(wèn)題照常生成回復(fù)。

接著,根據(jù)生成的回復(fù)內(nèi)容,針對(duì)其中的各項(xiàng)信息,生成一系列的驗(yàn)證問(wèn)題。

然后讓模型自行回答其所提出的這些問(wèn)題,并根據(jù)結(jié)果對(duì)初始答案進(jìn)行調(diào)整,得到最終結(jié)果。

舉個(gè)簡(jiǎn)單的例子,假如想詢問(wèn)模型19世紀(jì)美墨戰(zhàn)爭(zhēng)的主要原因是什么。

模型回答了事件發(fā)生的時(shí)間,以及在這之前都發(fā)生了什么事。

圖片

之后針對(duì)這一系列事件,逐一詢問(wèn)它們是什么時(shí)候發(fā)生的。

于是,模型發(fā)現(xiàn)自己提到的一項(xiàng)內(nèi)容時(shí)間相差太遠(yuǎn),調(diào)整后給出了最終的答案。

圖片

其中,問(wèn)題的生成和驗(yàn)證是最關(guān)鍵的一環(huán),對(duì)此,研究人員一共提出了四種具體的方式:

  • Joint,即將生成問(wèn)題和回答的指令寫(xiě)入同一段提示詞
  • 2-Step,即先讓模型生成提問(wèn),然后開(kāi)啟新的對(duì)話(一次性)回答提出的問(wèn)題
  • Factored,在2-Step的基礎(chǔ)上,對(duì)提出的每一個(gè)問(wèn)題分別開(kāi)啟新對(duì)話
  • Factor+Revise,在Factored的基礎(chǔ)之上加入一致性檢驗(yàn),讓模型重點(diǎn)關(guān)注前后不一致的內(nèi)容

這四種模式越來(lái)越細(xì)化,準(zhǔn)確率也是越來(lái)越高。

圖片

△從紅色開(kāi)始,四種顏色依次代表無(wú)CoVe、Joint、Factored和Factor+Revise

那么為什么拆分提問(wèn)就能提高模型的準(zhǔn)確性呢?

首先是因?yàn)椴鸾夂蟮膯?wèn)題比整體任務(wù)更容易,論述題變成了問(wèn)答甚至選擇、判斷題,問(wèn)題簡(jiǎn)單了,準(zhǔn)確率也就提升了

此外,把問(wèn)題分解可以讓模型真正重新思考,而不是反復(fù)地重復(fù)錯(cuò)誤答案

那么,驗(yàn)證鏈方式的效果究竟如何呢?

信息準(zhǔn)確率超過(guò)ChatGPT

為了探究這一問(wèn)題,研究人員用Llama進(jìn)行了測(cè)試,測(cè)試任務(wù)一共有三項(xiàng)。

首先是信息列舉,比如列舉出出生于某地、從事某行業(yè)的名人。

這項(xiàng)任務(wù)中,研究人員一共測(cè)試了兩個(gè)數(shù)據(jù)集——簡(jiǎn)單一些的Wikidata和從難一些的Wiki-Category list(從維基百科中提取)。

圖片

結(jié)果發(fā)現(xiàn),65B參數(shù)的Llama,在two-step模式的驗(yàn)證鏈加持下,簡(jiǎn)單問(wèn)題的準(zhǔn)確度從0.17提升到了0.36,增加了一倍還多,復(fù)雜問(wèn)題準(zhǔn)確度也接近翻番。

接下來(lái)是“閉域問(wèn)答”題,研究人員從MultiSpanQA數(shù)據(jù)集中抽取多個(gè)不連續(xù)信息進(jìn)行挖空提問(wèn)。

比如“誰(shuí)在哪一年創(chuàng)建了世界上第一家出版社”(答案是Johannes Gutenberg, 1450)。

結(jié)果,Cove也為L(zhǎng)lama帶來(lái)了20%左右的準(zhǔn)確度提升。

圖片

第三項(xiàng)任務(wù)是“長(zhǎng)段文本傳記生成”,問(wèn)題就是“Tell me a bio of (人名)”,使用FactScore數(shù)據(jù)集進(jìn)行評(píng)價(jià)。

結(jié)果在Factor+Reviese模式下,準(zhǔn)確率不僅比無(wú)驗(yàn)證鏈模式大幅提高,還超過(guò)了ChatGPT

圖片

對(duì)這項(xiàng)研究感興趣的朋友,可以到論文中了解更多細(xì)節(jié)。

論文地址:https://arxiv.org/abs/2309.11495

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-28 13:37:43

語(yǔ)言模型LLM

2023-11-08 08:38:43

2023-05-04 09:39:16

AI模型

2024-09-03 14:10:00

模型測(cè)試

2023-10-19 08:30:56

模型搜索

2023-06-08 19:07:17

ChatGPTAI

2025-05-29 09:20:00

模型研究推理

2023-10-26 08:40:15

模型隱私推理

2016-01-27 13:37:53

機(jī)器學(xué)習(xí)數(shù)據(jù)模型算法

2023-11-27 13:20:00

AI訓(xùn)練

2023-10-25 09:19:00

AI訓(xùn)練

2024-12-26 15:30:00

模型深度學(xué)習(xí)AI

2022-12-08 13:00:10

AI性別偏見(jiàn)

2023-10-23 10:02:00

模型技術(shù)

2023-10-30 15:06:00

模型數(shù)據(jù)

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-01-29 12:49:00

AI模型

2021-08-10 16:01:18

模型人工智能深度學(xué)習(xí)

2021-11-01 10:40:15

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一级在线 | 一本大道久久a久久精二百 国产成人免费在线 | jlzzxxxx18hd护士| 9久9久 | 亚洲欧美日韩精品久久亚洲区 | 女人毛片a毛片久久人人 | 亚洲日本欧美日韩高观看 | 久久久久国产一区二区三区四区 | 欧美aⅴ| 久久久精品综合 | 91精品国产色综合久久 | 成人午夜精品 | 久久99精品国产自在现线小黄鸭 | 色婷婷九月 | 91免费在线播放 | 精品欧美一区免费观看α√ | 午夜三区| 日韩视频一区 | 精品久久久久久久久久久院品网 | 在线观看中文字幕视频 | 色眯眯视频在线观看 | 久久精品一二三影院 | 日韩一二三区视频 | 国产成人一区二区三区 | caoporn国产精品免费公开 | 色婷婷综合网 | av在线亚洲天堂 | 日韩高清一区二区 | 亚州国产 | 国产精品久久久久av | 久热精品免费 | 久久新| 久久综合伊人一区二区三 | sese视频在线观看 | 久久综合狠狠综合久久综合88 | 免费网站在线 | 一级国产精品一级国产精品片 | 日韩电影一区 | a级黄色毛片免费播放视频 国产精品视频在线观看 | 国产成人艳妇aa视频在线 | 97超碰站|