LACIE:大語言模型中用于置信度校準(zhǔn)的聽眾感知微調(diào)
LLM(大語言模型)通常存在校準(zhǔn)不良和過度自信的問題,無論是顯性的(例如,“我百分之百確定”)還是隱性的,例如提供詳細(xì)信息或權(quán)威語調(diào)。
為了解決這個(gè)問題,研究人員采用了一種實(shí)用的說話者-聽眾多代理方法。通過多代理RSA(Rational Speech Acts)和啟發(fā)式的偏好優(yōu)化來實(shí)現(xiàn)這一點(diǎn):說話者生成答案,聽眾根據(jù)答案的聽起來如何來接受或拒絕它們。
人們更喜歡自信且正確或不自信且不正確的答案,不喜歡不匹配的答案。通過使用引導(dǎo)的偏好數(shù)據(jù),研究人員對(duì)LLMs進(jìn)行微調(diào),使其在隱性和顯性上都能夠進(jìn)行校準(zhǔn)。
通過模擬聽眾,研究人員在校準(zhǔn)(+20.7 AUROC,-7.8 ECE)和準(zhǔn)確性(+18%)方面取得了突破。
更重要的是,這些進(jìn)展對(duì)人類也是有效的,在人類評(píng)估中接受的錯(cuò)誤答案減少了47%。關(guān)鍵是,LACIE不僅僅優(yōu)化真實(shí)性,即對(duì)聽眾考慮的實(shí)用訓(xùn)練是關(guān)鍵。
研究人員還展示了LACIE的好處在其他數(shù)據(jù)上也是有效的,當(dāng)在TriviaQA上訓(xùn)練時(shí),在TruthfulQA上取得了顯著的真實(shí)性提升!從定性上講,經(jīng)過LACIE微調(diào)后,模型在正確和錯(cuò)誤答案之間的自信度有了更好的區(qū)分。
LACIE還會(huì)在模型錯(cuò)誤時(shí)表現(xiàn)出更多的猶豫和詳細(xì)/顯性自信的答案。最后,可以觀察到一些有趣的出現(xiàn)特性:LACIE訓(xùn)練導(dǎo)致放棄答案的顯著增加,盡管在訓(xùn)練數(shù)據(jù)中沒有這種情況。
調(diào)整還會(huì)導(dǎo)致模型有點(diǎn)刻薄。當(dāng)模型自信時(shí),它們會(huì)說一些像“當(dāng)然”或“顯然”的話來表達(dá)自信
論文:https://arxiv.org/abs/2405.21028
代碼:https://github.com/esteng/pragmatic_calibration
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/-aAbe8AVnZ09_8g8QlvBeQ??
