ICML 2024:AI對(duì)齊與可變和可影響?yīng)剟?lì)函數(shù)
"當(dāng)前的AI對(duì)齊技術(shù)忽視了人類偏好/價(jià)值觀可能會(huì)改變這一事實(shí)。如何才能考慮到這一點(diǎn)???"
人們的偏好會(huì)改變,甚至可能受到他們與AI系統(tǒng)的交互影響。
為了研究這種情況,研究人員引入了動(dòng)態(tài)獎(jiǎng)勵(lì)馬爾可夫決策過程(DR-MDPs),這些過程明確考慮了人類的獎(jiǎng)勵(lì)反饋可能受到AI系統(tǒng)影響的方式。
研究人員描述了靜態(tài)偏好假設(shè)如何削弱現(xiàn)有對(duì)齊技術(shù)的合理性,導(dǎo)致它們暗示性地獎(jiǎng)勵(lì)A(yù)I系統(tǒng)操縱人類反饋(例如,影響用戶的認(rèn)知狀態(tài)以增加獎(jiǎng)勵(lì))。
接著,轉(zhuǎn)向探討潛在的解決方案。
首先,研究人員提出了一個(gè)統(tǒng)一的觀點(diǎn),即代理的優(yōu)化視角可能在一定程度上有助于減少不良的AI影響,但并非萬全之策。 ??
然后,研究人員比較了8種不同的AI對(duì)齊概念,這些概念明確考慮了人類偏好(以及相關(guān)的獎(jiǎng)勵(lì)函數(shù))的變化。
研究人員發(fā)現(xiàn),考慮的所有優(yōu)化目標(biāo)都傾向于造成不良的AI影響,或者過度謹(jǐn)慎。
?? 這表明解決偏好變化問題的簡單方法可能不存在。
然而,在現(xiàn)實(shí)世界中,似乎沒有完全避免人類影響問題的簡單方法。 ??
這使得平衡我們的AI系統(tǒng)的影響風(fēng)險(xiǎn)和能力顯得更加重要。 ??
我們能否考慮到并非所有AI影響都看似不受歡迎的事實(shí)?例如,AI的影響對(duì)于教育助手或治療聊天機(jī)器人來說是整個(gè)價(jià)值主張。 ?? 研究人員提出了一個(gè)明確有益影響的概念,即所有的“自我”都認(rèn)為是有益的。
短視的優(yōu)化是否保證不受AI影響? ?? 不一定。如果在重新訓(xùn)練的體系中,以短視的方式優(yōu)化長期指標(biāo)(如在推薦系統(tǒng)中所做的),這甚至?xí)諗康脚c長期視角強(qiáng)化學(xué)習(xí)相同的最優(yōu)解(在某些假設(shè)下)。
研究人員還討論了社交媒體中的點(diǎn)擊率陷阱以及大語言模型中的諂媚/欺騙行為,可以被視為AI影響激勵(lì)的自然結(jié)果。
最終,該方法構(gòu)成朝著明確考慮(并應(yīng)對(duì))人類獎(jiǎng)勵(lì)反饋的變化和可影響性質(zhì)的AI對(duì)齊實(shí)踐的第一步。 ????
論文:https://arxiv.org/abs/2405.17713
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/yszS60o2nis6PnUR4M7-_w??
