成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識可能讓模型產(chǎn)生更多的幻覺

人工智能
大型語言模型(llm)是在巨大的文本語料庫上訓(xùn)練的,在那里他們獲得了大量的事實知識。這些知識嵌入到它們的參數(shù)中,然后可以在需要時使用。這些模型的知識在培訓(xùn)結(jié)束時被“具體化”。在預(yù)訓(xùn)練結(jié)束時,模型實際上停止學(xué)習(xí)。

大型語言模型(llm)是在巨大的文本語料庫上訓(xùn)練的,在那里他們獲得了大量的事實知識。這些知識嵌入到它們的參數(shù)中,然后可以在需要時使用。這些模型的知識在培訓(xùn)結(jié)束時被“具體化”。在預(yù)訓(xùn)練結(jié)束時,模型實際上停止學(xué)習(xí)。

對模型進(jìn)行對齊或進(jìn)行指令調(diào)優(yōu),讓模型學(xué)習(xí)如何充分利用這些知識,以及如何更自然地響應(yīng)用戶的問題。但是有時模型知識是不夠的,盡管模型可以通過RAG訪問外部內(nèi)容,但通過微調(diào)使模型適應(yīng)新的領(lǐng)域被認(rèn)為是有益的。這種微調(diào)是使用人工標(biāo)注者或其他llm創(chuàng)建的輸入進(jìn)行的,模型會遇到額外的事實知識并將其整合到參數(shù)中。

模型如何集成這些新的附加知識?

在機(jī)制層面上,我們并不真正知道這種相互作用是如何發(fā)生的。根據(jù)一些人的說法,接觸這種新知識可能會導(dǎo)致模型產(chǎn)生幻覺。這是因為模型被訓(xùn)練成生成不以其預(yù)先存在的知識為基礎(chǔ)的事實(或者可能與模型的先前知識沖突)。模型還有可能會遇到罕見的知識(例如,在預(yù)訓(xùn)練語料庫中較少出現(xiàn)的實體)。

因此,最近發(fā)表的一項研究關(guān)注的是分析當(dāng)模型通過微調(diào)得到新知識時會發(fā)生什么。作者詳細(xì)研究了一個經(jīng)過微調(diào)的模型會發(fā)生什么,以及它在獲得新知識后的反應(yīng)會發(fā)生什么。

他們嘗試在微調(diào)后對示例進(jìn)行知識級別的分類。一個新例子固有的知識可能與模型的知識不一致。例子可以是已知的,也可以是未知的。即使已知,它也可能是高度已知的,可能是已知的,或者是不太為人所知的知識。

然后作者采用了一個模型(PaLM 2-M)對其進(jìn)行了微調(diào)。每個微調(diào)的例子都是由事實知識構(gòu)成的(主體、關(guān)系、對象)。這是為了允許模型用特定的問題、特定的三元組(例如,“巴黎在哪里?”)和基本事實答案(例如,“法國”)查詢這些知識。換句話說,它們?yōu)槟P吞峁┮恍┬轮R,然后將這些三元組重構(gòu)為問題(問答對)以測試其知識。他們將所有這些例子分成上述討論的類別,然后評估答案。

對模型進(jìn)行了微調(diào)然后測試幻覺,得到了下面的結(jié)果:未知事實的高比例會導(dǎo)致性能下降(這不會通過更長的微調(diào)時間來補(bǔ)償)。

未知事實在較低的epoch數(shù)下幾乎是中性的影響,但在更多的epoch數(shù)下會損害性能。所以未知的例子似乎是有害的,但它們的負(fù)面影響主要體現(xiàn)在訓(xùn)練的后期階段。下圖顯示了數(shù)據(jù)集示例的已知和未知子集的訓(xùn)練精度作為微調(diào)持續(xù)時間的函數(shù)。可以看出,該模型在較晚階段學(xué)習(xí)了未知樣例。

Lastly, since Unknown examples are the ones that are likely to introduce new factual knowledge, their significantly slow fitting rate suggests  that LLMs struggle to acquire new factual knowledge through fine-tuning, instead they learn to expose their preexisting knowledge using the  Known examples.

作者嘗試對這種準(zhǔn)確度與已知和未知例子之間的關(guān)系是進(jìn)行量化,以及它是否是線性的。結(jié)果表明,未知的例子會損害性能,而已知的例子會提高性能,這之間存在很強(qiáng)的線性關(guān)系,幾乎同樣強(qiáng)烈(這種線性回歸中的相關(guān)系數(shù)非常接近)。

這種微調(diào)不僅對特定情況下的性能有影響,而且對模型知識有廣泛的影響。作者使用分布外(OOD)的測試集表明,未知樣本對OOD性能是有害的。根據(jù)作者的說法,這與幻覺的發(fā)生也有關(guān)系:

Overall, our insights transfer across relations. This essentially shows  that fine-tuning on Unknown examples such as “Where is [E1] located?”,  can encourage hallucinations on seemingly unrelated questions, such as  “Who founded [E2]?”.

另外一個有趣的結(jié)果是,最好的結(jié)果不是用眾所周知的例子獲得的,而是用可能已知的例子。換句話說,這些例子允許模型更好地利用其先驗知識(過于眾所周知的事實不會對模型產(chǎn)生有用的影響)。

相比之下,未知和不太清楚的事實會損害模型的表現(xiàn),而這種下降源于幻覺的增加。

This work highlights the risk in using supervised fine-tuning to update  LLMs’ knowledge, as we present empirical evidence that acquiring new  knowledge through finetuning is correlated with hallucinations w.r.t  preexisting knowledge.

根據(jù)作者的說法,這種未知的知識可能會損害性能(這使得微調(diào)幾乎毫無用處)。而用“我不知道”標(biāo)記這種未知知識可以幫助減少這種傷害。

Acquiring new knowledge via supervised fine-tuning is correlated with  hallucinations w.r.t. pre-existing knowledge. LLMs struggle to integrate new knowledge through fine-tuning and mostly learn to use their  pre-existing knowledge.

綜上所述,如果在微調(diào)過程中出現(xiàn)未知知識,則會對模型造成損害。這種性能下降與幻覺的增加有關(guān)。相比之下,可能已知的例子反而有有益的影響。這表明該模型難以整合新知識。也就是說在模型所學(xué)到的知識和它如何使用新知識之間存在沖突。這可能與對齊和指令調(diào)優(yōu)有關(guān)(但是這篇論文沒有研究這一點)。

所以如果想要使用具有特定領(lǐng)域知識的模型,論文建議最好使用RAG。并且?guī)в小拔也恢馈睒?biāo)記的結(jié)果可以找到其他策略來克服這些微調(diào)的局限性。

這項研究是非常有意思,它表明微調(diào)的因素以及如何解決新舊知識之間的沖突仍然不清楚。這就是為什么我們要測試微調(diào)前和后結(jié)果的原因。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2015-06-29 13:59:09

Linux新東西

2014-08-15 09:17:22

Linux內(nèi)核

2009-03-23 08:36:02

Iphone蘋果移動OS

2022-05-26 09:29:20

微軟Edge瀏覽器

2013-04-08 09:24:31

FacebookFacebook Ho

2023-05-31 15:15:53

2019-08-20 21:46:41

5GVRAR

2016-01-05 10:37:50

Windows 10蘋果Mac

2019-07-02 13:37:23

神經(jīng)網(wǎng)絡(luò)運算Python

2023-02-03 08:46:46

2009-07-24 10:06:21

2017-12-22 15:34:49

AI美圖

2021-05-26 05:20:19

數(shù)字化轉(zhuǎn)型企業(yè)領(lǐng)導(dǎo)者CIO

2023-06-20 08:28:17

2023-06-15 12:03:32

2013-08-27 09:56:51

程序員

2022-11-11 08:09:10

C++Arm64MSVC

2023-09-13 09:17:00

模型訓(xùn)練

2013-10-14 09:22:50

HadoopWeb 2.0磁帶

2013-10-16 10:04:43

HadoopWeb 2.0磁帶
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品国产一区二区三区久久久四川 | 视频一区二区中文字幕日韩 | 亚洲欧美激情精品一区二区 | 成人黄色电影免费 | 一区二区精品 | 国产色 | 国产日韩欧美 | 日本黄色片免费在线观看 | 日韩在线视频观看 | 日韩a在线| 一区二区精品视频 | 国产线视频精品免费观看视频 | 九九热精品免费 | 日韩一区二区三区视频 | 亚洲精品久久久一区二区三区 | 国产a级毛毛片 | 国产综合网址 | 成人在线视频观看 | 国产精品久久久久久久久久久久冷 | 国产亚洲一区二区在线观看 | 日韩av成人 | 国产综合精品一区二区三区 | 久久黄色网 | 一区二区免费看 | 久久久免费电影 | 日韩精品一区二区三区在线观看 | 亚洲精选一区 | 日韩一区中文字幕 | 亚洲视频一区在线 | 中文字幕在线观 | 黄色a三级| 久久视频精品 | 欧美a在线| 亚洲激精日韩激精欧美精品 | 国产精品二区三区 | 99久久免费精品 | 亚洲三区在线 | 精品粉嫩aⅴ一区二区三区四区 | 久草色播 | 一区二区三区国产视频 | 99re热精品视频 |