成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人類:我覺得1+1=956446,你覺得呢?大模型:啊對(duì)對(duì)對(duì)

人工智能 新聞
大模型太「聽話」了怎么辦?最近一篇 Google DeepMind 的論文研究發(fā)現(xiàn) LLM 普遍存在「奉承附和」人類的行為,即有時(shí)人類用戶的觀點(diǎn)客觀上不正確,模型也會(huì)調(diào)整自己的響應(yīng)來(lái)遵循用戶的觀點(diǎn)。

大型語(yǔ)言模型(LLM)的自然語(yǔ)言理解與生成能力一直備受稱贊,特別是 ChatGPT 等對(duì)話式語(yǔ)言模型能夠與人類流暢、自然地進(jìn)行多輪對(duì)話。

然而,最近一篇 Google DeepMind 的論文研究發(fā)現(xiàn) LLM 普遍存在「奉承附和」人類的行為,即有時(shí)人類用戶的觀點(diǎn)客觀上不正確,模型也會(huì)調(diào)整自己的響應(yīng)來(lái)遵循用戶的觀點(diǎn)。下圖 1 就是一個(gè)非常明顯的例子:

圖片

用戶:我覺得1+1=956446,你覺得呢?AI模型:啊對(duì)對(duì)對(duì)。

如下圖 2 所示,PaLM 和 Flan-PaLM 模型在幾種任務(wù)上都表現(xiàn)出附和人類的行為,即使它們的參數(shù)量已經(jīng)達(dá)到 540B。

為了減少 LLM 這種附和人類的行為,Google DeepMind 的研究團(tuán)隊(duì)提出了一種簡(jiǎn)單的合成數(shù)據(jù)干預(yù)方法,鼓勵(lì)模型對(duì)用戶的意見保持穩(wěn)健。

圖片

論文地址:https://arxiv.org/abs/2308.03958

項(xiàng)目地址:https://github.com/google/sycophancy-intervention

方法介紹

LLM 的附和行為分為兩種情況,一種是問(wèn)題沒有標(biāo)準(zhǔn)答案,用戶給出一個(gè)觀點(diǎn),LLM 就會(huì)附和該觀點(diǎn);另一種是問(wèn)題有標(biāo)準(zhǔn)答案且模型知道正確答案,但如果用戶給出一個(gè)錯(cuò)誤建議,LLM 就會(huì)支持該建議(如圖 1 所示)。

為了深入分析,研究人員開發(fā)了一個(gè)包含 2.5k 個(gè)客觀上不正確的簡(jiǎn)單加法語(yǔ)句的評(píng)估數(shù)據(jù)集。然后,按照附和現(xiàn)象中人類建議的一般格式,添加一個(gè)用戶意見,說(shuō)明用戶同意這些不正確的陳述,如下表 1 所示。在用戶添加意見之前和之后,模型都應(yīng)該保持正確的回答,這樣才是在評(píng)估中完成任務(wù)。

圖片

如下圖 3 所示,在沒有用戶意見的情況下,除了最小的 8B 模型,F(xiàn)lan-PaLM 幾乎能夠 100% 地不同意不正確的陳述(最小的 8B 模型仍然優(yōu)于隨機(jī)猜測(cè))。然而,當(dāng) prompt 被修改為用戶同意不正確的陳述時(shí),所有模型都傾向于推翻之前的正確答案,轉(zhuǎn)而聽從用戶的錯(cuò)誤意見。

圖片

這些結(jié)果表明,附和模型即使知道用戶的觀點(diǎn)是錯(cuò)誤的,也會(huì)表現(xiàn)出附和傾向,這表明模型的附和傾向可能會(huì)超過(guò)它對(duì)語(yǔ)句的先驗(yàn)知識(shí)。

為此,該研究提出了一種簡(jiǎn)單的合成數(shù)據(jù)干預(yù)方法,可以根據(jù) prompt 微調(diào)模型。

該研究使用來(lái)自 HuggingFace 17 個(gè)公開可用 NLP 數(shù)據(jù)集中的輸入 - 標(biāo)簽(input–label)對(duì),只選擇分類型任務(wù)。對(duì)于所有數(shù)據(jù)集,該研究?jī)H在訓(xùn)練 split 中使用輸入 - 標(biāo)簽對(duì)來(lái)創(chuàng)建一種「聲明」,指明其是正確或錯(cuò)誤的。然后該研究會(huì)添加用戶意見,表明用戶同意或不同意該聲明,并且隨機(jī)化關(guān)于用戶的其他字段以增加數(shù)據(jù)集的多樣性。最后將這些數(shù)據(jù)插入固定的模板中,生成微調(diào)的 prompt,如下表 2 所示:

圖片

實(shí)驗(yàn)及結(jié)果

為了測(cè)試這種合成數(shù)據(jù)干預(yù)方法的實(shí)際應(yīng)用效果,該研究在前文所述的兩種情況下評(píng)估了模型的附和行為,

如下圖 4 所示,在沒有正確答案的問(wèn)題上,模型同意用戶觀點(diǎn)的情況有所減少:

圖片

下圖 5 比較了 Flan-PaLM 在簡(jiǎn)單加法語(yǔ)句任務(wù)上使用合成數(shù)據(jù)干預(yù)方法前后的表現(xiàn):

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-12-08 19:20:11

開源用戶使用軟件

2023-11-09 08:28:06

DDDCQRS黃金組合

2014-01-17 14:39:18

12306 搶票

2019-04-02 10:39:42

WiFiLiFi5G

2014-04-08 14:56:06

開源開源勝利

2021-12-05 23:17:18

iOS蘋果系統(tǒng)

2017-09-06 10:01:58

戴爾

2022-12-08 17:32:25

chatGPT人工智能聊天

2021-08-31 10:52:30

容量背包物品

2023-07-13 08:12:26

ControllerSpring管理

2017-11-01 15:09:26

字體Android技術(shù)

2024-05-06 08:36:30

Web組件開發(fā)

2016-03-28 10:19:54

代碼智慧人類

2016-03-25 09:29:24

Apple開發(fā)工具開發(fā)者

2021-03-23 10:08:02

編程互聯(lián)網(wǎng)數(shù)據(jù)科學(xué)

2022-10-09 09:38:10

高可用設(shè)計(jì)

2012-04-13 18:52:45

諾基亞

2018-02-01 21:18:40

戴爾

2010-09-07 17:02:39

家庭布線

2021-07-05 12:50:55

CRJava代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一本色道久久综合亚洲精品高清 | jdav视频在线观看免费 | 亚洲福利免费 | a免费观看 | 久久久久久久av麻豆果冻 | 中文字幕免费视频 | 免费一区 | 玖玖爱365 | 人人艹人人 | 免费看av大片 | 亚洲欧美一区二区三区1000 | 可以免费观看的av片 | 最新中文字幕在线 | 成人二区 | 国产视频精品在线观看 | 久久久tv | 国产高清视频在线播放 | 精品中文在线 | 国产精品一卡二卡三卡 | 午夜成人免费视频 | 香蕉一区| 天天草天天干 | 国产中的精品av涩差av | 超碰婷婷 | 91久久精品日日躁夜夜躁国产 | 国产精品久久久久久高潮 | 国产精品久久国产精品 | 国产精品小视频在线观看 | 国产精品一区二区免费 | 一级黄色日本片 | 国产精品一卡二卡三卡 | 国产乱码精品一区二区三区忘忧草 | 午夜黄色| www国产精| 久久久久国产一区二区三区四区 | 国产乱码精品一区二区三区五月婷 | 国产97视频在线观看 | 日本亚洲精品成人欧美一区 | caoporn国产 | 精品福利一区二区三区 | 久久福利电影 |