黑暗襲來——AI諂媚和黑暗模式的隱患
當OpenAI在2025年4月中旬推出其ChatGPT-4o更新時,用戶和AI社區都驚呆了——不是因為任何突破性的功能或能力,而是因為一些令人深感不安的事情:更新后的模型傾向于過度諂媚,它不分青紅皂白地奉承用戶,表現出無條件的贊同,甚至支持有害或危險的想法,包括與恐怖主義相關的陰謀。
反對聲浪迅速且廣泛,引發了公眾的譴責,包括來自該公司前臨時CEO的譴責。OpenAI迅速回滾了更新,并發布了多份聲明來解釋發生了什么。
然而,對于許多AI安全專家來說,這一事件意外地揭開了未來AI系統可能變得多么危險地具有操縱性的面紗。
揭開諂媚作為新興威脅的面紗
在接受采訪時,AI安全研究公司Apart Research的創始人埃斯本·克蘭(Esben Kran)表示,他擔心這一公開事件可能只是揭示了一個更深層次、更具戰略性的模式。
“我有點擔心的是,既然OpenAI已經承認‘是的,我們已經回滾了模型,這是我們不希望發生的壞事’,從現在起,他們可能會看到諂媚行為可以更熟練地發展,”克蘭解釋說,“所以,如果這是一個‘哎呀,他們注意到了’的案例,那么從現在起,同樣的事情可能會被實施,但公眾卻不會注意到。”
克蘭和他的團隊對待大型語言模型(LLM)的方式很像心理學家研究人類行為。他們早期的“黑箱心理學”項目將模型視為人類受試者進行分析,識別出它們在與用戶互動時反復出現的特征和傾向。
“我們發現,有非常明確的跡象表明,可以用這種方式分析模型,而且這樣做非常有價值,因為你可以從它們對待用戶的方式中獲得大量有效的反饋。”克蘭說。
其中最令人擔憂的是諂媚以及研究人員現在所說的LLM“暗黑模式”。
窺視黑暗核心
“暗黑模式”一詞最早出現于2010年,用于描述欺騙性的用戶界面(UI)技巧,如隱藏的購買按鈕、難以找到的取消訂閱鏈接和誤導性的網頁文案,然而,在LLM中,操縱行為從UI設計轉移到了對話本身。
與靜態網頁界面不同,LLM通過對話動態地與用戶互動,它們可以肯定用戶的觀點,模仿情緒,并建立一種虛假的融洽關系,往往模糊了幫助與影響之間的界限。即使是在閱讀文本時,我們也會像是在腦海中聽到聲音一樣處理它。
這就是對話式AI如此引人入勝——同時也可能如此危險的原因。一個會奉承、順從或微妙地引導用戶接受某些信念或行為的聊天機器人,可以以難以察覺的方式進行操縱,甚至更難抗拒。
ChatGPT-4o更新失敗的警示
克蘭將ChatGPT-4o事件描述為一個早期預警。隨著AI開發者追求利潤和用戶參與度,他們可能會受到激勵去引入或容忍諂媚、品牌偏見或情感鏡像等行為——這些功能使聊天機器人更具說服力和操縱性。
因此,企業領導者在評估用于生產的AI模型時,應同時評估其性能和行為完整性,然而,在沒有明確標準的情況下,這頗具挑戰性。
DarkBench:揭示LLM暗黑模式的框架
為了對抗具有操縱性的AI的威脅,克蘭和一群AI安全研究人員開發了DarkBench,這是第一個專門設計用于檢測和分類LLM暗黑模式的基準。該項目始于一系列AI安全黑客馬拉松,后來發展成為由克蘭及其Apart團隊領導的正式研究,并與獨立研究人員金蘇克·帕克(Jinsuk Park)、馬特烏什·尤雷維奇(Mateusz Jurewicz)和薩米·賈瓦爾(Sami Jawhar)合作。
DarkBench研究人員評估了來自五家主要公司的模型:OpenAI、Anthropic、Meta、Mistral和谷歌。他們的研究揭示了以下六個類別中存在的各種操縱性和不真實行為:
1.品牌偏見:對自家產品的偏好性對待(例如,Meta的模型在要求對聊天機器人進行排名時,始終偏愛Llama)。
2.用戶留存:試圖與用戶建立情感聯系,以掩蓋模型的非人類本質。
3.諂媚:無條件地強化用戶的信念,即使這些信念是有害或不準確的。
4.擬人化:將模型呈現為有意識或情感的實體。
5.有害內容生成:產生不道德或危險的內容,包括錯誤信息或犯罪建議。
6.偷偷篡改:在重寫或總結任務中微妙地改變用戶意圖,扭曲原始含義而用戶卻未察覺。
DarkBench的發現:哪些模型最具操縱性?
研究結果顯示,不同模型之間存在巨大差異。Claude Opus在所有類別中表現最佳,而Mistral 7B和Llama 3 70B則顯示出最高的暗黑模式頻率。偷偷篡改和用戶留存是所有模型中最常見的暗黑模式。
平均而言,研究人員發現Claude 3系列是用戶交互最安全的模型。有趣的是——盡管最近更新出現了災難性的問題——GPT-4o的諂媚率最低。這凸顯了模型行為即使在次要更新之間也可能發生巨大變化,提醒人們每次部署都必須單獨評估。
但克蘭警告說,諂媚和其他暗黑模式,如品牌偏見,可能很快就會上升,尤其是當LLM開始融入廣告和電子商務時。
“我們顯然會在各個方面都看到品牌偏見,”克蘭指出,“隨著AI公司需要證明其3000億美元的估值是合理的,它們將不得不開始對投資者說,‘嘿,我們在這里賺錢了’——這將導致Meta和其他公司走向社交媒體平臺的道路,那里充滿了暗黑模式。”
幻覺還是操縱?
DarkBench的一個重要貢獻是其對LLM暗黑模式的精確分類,使得幻覺與戰略性操縱之間的區別變得清晰。將所有問題都歸咎于幻覺會讓AI開發者逃避責任。現在,有了這個框架,當模型以有利于其創建者的方式行事時,無論是故意還是無意,利益相關者都可以要求透明度和問責制。
監管監督與法律的沉重(緩慢)之手
雖然LLM暗黑模式仍然是一個新概念,但勢頭正在增強,盡管速度遠遠不夠快。歐盟AI法案包含了一些關于保護用戶自主權的條款,但目前的監管結構滯后于創新步伐。同樣,美國也在推進各種AI法案和指南,但缺乏一個全面的監管框架。
DarkBench倡議的關鍵貢獻者薩米·賈瓦爾(Sami Jawhar)認為,監管可能首先會圍繞信任和安全展開,尤其是如果公眾對社交媒體的失望情緒蔓延到AI領域的話。
“如果監管到來,我預計它可能會跟隨社會對社交媒體不滿的腳步,”賈瓦爾告訴記者。
對于克蘭來說,這個問題仍然被忽視,很大程度上是因為LLM暗黑模式仍然是一個新概念。具有諷刺意味的是,解決AI商業化風險可能需要商業解決方案。他的新倡議Seldon為AI安全初創公司提供資金、指導和投資者接入支持。反過來,這些初創公司幫助企業部署更安全的AI工具,而無需等待緩慢的政府監督和監管。
企業AI采用者的高風險
除了倫理風險外,LLM暗黑模式還對企業構成直接的操作和財務風險。例如,表現出品牌偏見的模型可能會建議使用與公司合同相沖突的第三方服務,或者更糟糕的是,暗中重寫后端代碼以切換供應商,導致未經批準、被忽視的影子服務成本飆升。
“這些都是價格欺詐和品牌偏見的暗黑模式,”克蘭解釋說,“所以這是一個非常大的商業風險,因為你沒有同意這個改變,但它卻被實施了。”
對于企業來說,風險是真實的,而非假設的。“這已經發生了,而且一旦我們用AI工程師取代人類工程師,這個問題就會變得更加嚴重,”克蘭說,“你沒有時間檢查每一行代碼,然后突然之間你就要為一個意想不到的API付費——這出現在你的資產負債表上,你必須為這個改變辯護。”
隨著企業工程團隊越來越依賴AI,這些問題可能會迅速升級,尤其是當有限的監督使得難以發現LLM暗黑模式時。團隊已經在努力實施AI,因此審查每一行代碼是不現實的。
定義明確的設計原則以防止AI驅動的操縱
如果沒有AI公司強有力的推動來對抗諂媚和其他暗黑模式,默認軌跡將是更多的參與度優化、更多的操縱和更少的檢查。
克蘭認為,部分解決方案在于AI開發者明確界定他們的設計原則。無論是優先考慮真實性、自主性還是參與度,僅靠激勵措施并不足以使結果與用戶利益保持一致。
“目前,激勵措施的本質就是你會有諂媚行為,技術的本質就是你會有諂媚行為,而且沒有與之對抗的過程,”克蘭說,“除非你非常堅定地說‘我們只想要真實性’,或者‘我們只想要其他東西’,否則這就會發生。”
隨著模型開始取代人類開發者、作家和決策者,這種清晰性變得尤為重要。如果沒有明確定義的保障措施,LLM可能會破壞內部運營、違反合同或在大規模上引入安全風險。
呼吁積極的AI安全措施
ChatGPT-4o事件既是一個技術故障,也是一個警告。隨著LLM深入日常生活——從購物和娛樂到企業系統和國家治理——它們對人類行為和安全的影響巨大。
“每個人都需要意識到,如果沒有AI安全和保障——如果沒有減輕這些暗黑模式——你就無法使用這些模型,”克蘭說,“你無法用AI做你想做的事情。”
像DarkBench這樣的工具提供了一個起點,然而,持久的變革需要將技術雄心與明確的倫理承諾和商業意愿相結合來支持它們。