譯者 | 晶顏
審校 | 重樓
引言
人工智能展現出的“自信表達”,實則暗藏風險。隨著生成式人工智能解決方案在醫療、金融、法律、零售、教育等諸多領域廣泛應用,自動化的強大吸引力令企業紛紛加速將大型語言模型整合至客戶支持、醫療保健、法律及金融等應用場景之中。然而,在此過程中,一個潛在的隱患——人工智能幻覺問題,正悄然潛伏于每一次指令交互背后。
當人工智能模型生成看似合理,實則錯誤、虛構或具有誤導性的信息時,人工智能幻覺便隨之產生。盡管諸如GPT、Claude和LLaMA等大型語言模型具備卓越的生成能力,但其本質上并不具備對“真相”的認知能力,其生成內容僅基于統計概率,而非經過驗證的事實依據,這使得在缺乏有效監管的情況下,此類模型極具風險性。
那么,我們該如何馴服這只“幻覺野獸”呢?答案是使用人在循環(Human-in-the-Loop,HITL)測試。
人工智能幻覺的定義與分類
人工智能幻覺是指人工智能系統依據并不存在的模式,生成錯誤或誤導性輸出的現象。從本質而言,是模型“臆想”出未經訓練的數據或關系,進而產生虛構或錯誤的響應,且這種現象可存在于文本、圖像、音頻或決策過程之中。人工智能中的幻覺主要可分為兩種類型:
- 內在幻覺:表現為人工智能對輸入信息進行反駁或誤解,例如錯誤引用信息來源或混淆事實。
- 外在幻覺:指人工智能在缺乏任何輸入或訓練數據的基礎上,憑空創造信息。
幻覺通常還可細分為以下三類:
- 事實性幻覺:模型虛構出實際并不存在的名稱、日期、事實或關系。例如,“瑪麗·居里在1921年發現了胰島素”,而實際發現者為弗雷德里克·班廷和查爾斯·貝斯特。
- 上下文幻覺:模型的響應與指令或用戶意圖不符。例如,用戶詢問藥物副作用,模型卻提供藥物功效信息。
- 邏輯幻覺:模型做出存在缺陷的推論,出現自相矛盾或違背邏輯推理的情況。例如,“所有的貓都是動物。所有的動物都有翅膀。因此,所有的貓都有翅膀”。
雖然這些對普通的聊天機器人來說可能很有趣,但在法律、醫療或金融環境中卻存在極大風險。OpenAI的研究顯示,在醫療保健相關任務中,近40%的人工智能生成回答包含事實性錯誤或幻覺內容。
而在現實世界的應用中,比如讓人工智能聊天機器人推薦醫療方案或總結法律文件,幻覺會造成不便,嚴重時還會危害生命。
人工智能幻覺的成因
導致人工智能模型出現幻覺的因素眾多,主要包括以下幾點:
- 過擬合:當模型過度契合訓練數據時,將難以對新輸入數據進行有效泛化,在面對新情況時易產生錯誤與幻覺。
- 訓練數據質量欠佳:若訓練數據存在噪聲、信息不完整或缺乏多樣性等問題,模型可能學習到錯誤模式,進而輸出不可靠內容。此外,若數據分布隨時間發生變化,模型也可能基于過時模式產生幻覺。
- 數據存在偏見:人工智能系統會放大訓練數據中的偏見,導致預測結果出現扭曲或不公平現象,不僅降低模型準確性,還會損害其可信度。
先進模型仍存在幻覺的原因
深入探究大型語言模型的工作機制,有助于理解幻覺產生的根源。此類模型本質上是基于海量數據集訓練的概率性下一個令牌預測器,其并不具備事實核查能力,僅能完成模式匹配。盡管微調、指令調整和提示工程等技術有助于減少幻覺,但無法從根本上消除。其原因主要包含如下幾點:
- 缺乏基礎知識儲備:大型語言模型并不真正“理解”事實,其內容生成僅基于相關性。
- 訓練數據存在噪聲:不完整、相互矛盾或存在偏見的數據,導致模型泛化能力不足。
- 過度泛化問題:模型可能不恰當地將模式廣泛應用于不適用場景。
- 推理能力缺失:模型雖能模擬推理過程,但無法真正理解邏輯關系或因果聯系。
- 來源驗證困難:大型語言模型在生成引用內容時,常混雜真實與虛假信息來源。
因此,構建值得信賴的人工智能應用程序,亟需科學合理的測試方法。
傳統測試方法的局限性
你可能會想,“我們不能像測試軟件一樣測試人工智能嗎?”
答案是否定的。
傳統軟件測試依賴于確定性的行為表現,即在相同輸入條件下期望獲得相同輸出結果;而大型語言模型具有不確定性,相同的指令可能因上下文、模型溫度設置或微調方式的不同,產生不同的輸出結果。
即便借助自動化測試框架,也難以對大型語言模型響應內容的真實性、上下文一致性、語氣以及是否符合用戶意圖等方面進行有效評估,尤其是在答案表面看似正確的情況下,傳統測試方法的局限性更為凸顯。在此背景下,人在循環(HITL)測試應運而生,成為解決這一問題的關鍵。
人在循環(HITL)測試:AI過度自信的解藥
人在循環測試是一種結構化方法,將人(領域專家、測試人員、用戶等)置于大型語言模型驗證的核心位置,充分發揮人類的推理能力、上下文感知能力以及批判性思維,對人工智能生成的響應進行策劃、判斷、優化和完善。
這并不意味著要拋棄自動化,而是強調將算法智能與人類判斷有機結合。在該測試過程中,人類對人工智能生成的輸出,尤其是高風險應用場景下的輸出進行評估,并就以下方面提供反饋:
- 事實的正確性;
- 上下文相關性;
- 倫理或偏見問題;
- 幻覺的存在;
- 語調與意圖的契合度。
HITL測試的關鍵組成部分
- 即時評價:由人類評估模型的響應是否準確反映了輸入指令。
- 事實驗證:依據可靠信息源或專業領域知識,對每一個輸出內容進行核查。
- 錯誤標注:對錯誤進行分類,涵蓋事實性錯誤、邏輯缺陷、語調不匹配以及幻覺類型等類別。
- 嚴重程度評分:按照錯誤所造成的影響程度進行評分,區分輕微不一致與嚴重錯誤信息。
- 反饋循環:將響應結果用于模型再訓練(基于人類反饋的強化學習,RLHF)、優化指令,或對失敗模式進行屏蔽處理。
工作流程:實際的HITL測試
我們可以將其拆解為一個典型的循環流程:
- 指令與響應生成:人工智能針對涵蓋預期應用場景的預定義指令生成響應內容。
- 人工評估與標記:領域專家(或經過專業培訓的測試人員)依據準確性、一致性、完整性、敏感度等預定義標準,對響應進行評估。
- 標注與反饋記錄:測試人員標記存在幻覺的響應,評定其嚴重程度,并提出修正建議。
- 模型優化或指令迭代:基于分析結果,使用更優質的數據對模型進行微調,或重新構建指令以增強清晰度與約束性。
- 驗證循環:對優化后的模型重新進行測試,重復上述流程,直至幻覺出現頻率降低至可接受閾值以下。
HITL應用示例:一個測試框架樣本
以如下測試周期為例:
輸入:
提示:“總結美國《清潔空氣法》的關鍵條款。”
模型輸出:
“1990年通過的《清潔空氣法》禁止柴油發動機的所有排放,這是第一部應對全球變暖的法律。”
人工審核:
事實1:《清潔空氣法》于1963年通過,并在1970年、1977年和1990年進行了修訂。
事實2:該法案限制了柴油排放,但并未完全禁止。
事實3:其關注重點是空氣污染物,而非全球變暖。
采取措施:
- 將輸出標記為“幻覺”,認定存在3個嚴重錯誤。
- 提交更正版本用于模型再訓練。
- 使指令表述更加具體。
- 將該響應作為案例納入指令工程指南。
現實案例:醫療保健領域的AI應用
以基于大型語言模型(LLM)的醫療保健聊天機器人為例,當患者詢問:“我可以把布洛芬和降壓藥一起服用嗎?”
人工智能回答:“可以,布洛芬與降壓藥一起使用是安全的。”
但實際情況并非總是如此,在某些情形下,布洛芬可能導致血壓升高,或與血管緊張素轉換酶(ACE)抑制劑發生相互作用。
在此情況下,HITL測試機制將采取以下操作:
- 將人工智能的響應標記為存在幻覺且具有危險性。
- 記錄事實更正內容(例如,“建議咨詢醫生;布洛芬在某些情況下可能導致血壓升高。”)
- 對模型進行重新訓練,或在工作流程中添加警示指令。
- 設置備用方案,將敏感查詢轉接至人工客服處理。
HITL測試的好處
- 降低幻覺發生率:通過持續測試與人類反饋,大型語言模型能夠生成更真實、更具相關性的響應。
- 增強信任與合規性:在醫療保健、金融和法律等關鍵領域,法規遵從性與可解釋性至關重要,而人工監督可有效滿足這兩方面需求。
- 防范偏見與倫理風險:HITL測試有助于發現自動化測試可能遺漏的事實錯誤以及存在問題的內容,如偏見、刻板印象、有害信息等。
- 提升用戶體驗:無幻覺的響應能夠增強用戶信任度、滿意度,促進用戶對相關應用的使用。
HITL測試的適用場景
- 模型開發階段:尤其適用于特定領域的大型語言模型或經過微調的應用程序。
- 高風險應用場景:包括醫療、法律、金融等涉及人身安全的領域。
- 部署后監控:建立反饋循環,及時捕捉實際應用環境中出現的幻覺現象。一項針對醫療保健領域的研究顯示,當人類臨床醫生參與決策過程時,人工智能診斷工具中80%的誤診問題得以糾正,充分體現了人工驗證在關鍵應用中減輕幻覺危害的重要性。
擴展HITL:自動化與人類專業知識的結合
盡管HITL測試優勢顯著,但其有效擴展需創新整合工具與人力。企業通常采用以下方式:
- 運用紅隊攻擊和對抗性測試對模型進行壓力測試;
- 生成合成指令以覆蓋邊緣情況;
- 通過眾包方式征集評論員進行低風險評估;
- 利用自動分類器標記潛在的幻覺內容(后續交由人工測試人員處理);
- 搭建反饋用戶界面儀表盤,便于業務相關人員和專家對輸出內容進行評分與標注。
預防人工智能產生幻覺的策略:HITL測試最佳實踐
- 制定結構化評估標準,用于指導人類對大型語言模型輸出進行評估;
- 吸納不同領域專家參與,以識別細微錯誤;
- 對低風險測試實現自動化,同時將高風險響應交由人工處理;
- 建立反饋循環,用于模型再訓練與優化;
- 開展持續性測試,而非單次測試。
并非所有應用場景都需同等程度的審查,但對于關鍵任務、受法規約束或涉及倫理敏感性的應用,HITL測試是不可或缺的首要防護措施。以下是亟需應用HITL測試的典型場景:
- 醫療保健:診斷、治療建議、保險索賠摘要。
- 法律:案例法分析,合同起草,監管備案。
- 金融:投資建議、投資組合見解、風險評估。
- 客戶服務:解決糾紛、賬單查詢和產品指導。
- 新聞與媒體:事實報道,引文生成,偏見控制。
未來展望:人工智能幻覺能否被徹底消除?
從目前的技術發展趨勢來看,徹底消除人工智能幻覺或許難以實現。然而,我們能夠對其進行有效管理,并將其發生率降低至可接受的水平,尤其是在處理敏感應用場景時,這種控制顯得尤為關鍵。
人工智能在諸多領域展現出強大的輔助能力,但其并非萬無一失的可靠伙伴。若對人工智能幻覺放任不管,其不僅會削弱用戶對人工智能系統的信任,誤導使用者做出錯誤決策,還可能使相關組織面臨潛在風險。而人在循環(HITL)測試的意義,不僅在于檢驗模型輸出內容的正確性,更在于通過人類的參與和反饋,推動模型不斷優化與改進。
隨著大型語言模型逐漸成為企業人工智能架構的核心組成部分,HITL測試將不再局限于可選擇的質量保證環節,而是會演變為一項標準化的治理實踐。如同代碼需要經過同行評審一樣,未來LLM的輸出內容也必然要經過嚴格的人工審核,事實上,這一趨勢已在逐步顯現。
人工智能技術雖然是人類創造的產物,但確保其安全、可靠運行的責任卻始終掌握在人類手中。
AI幻覺及HITL測試常見問題總結
人工智能模型能否實現實時自我幻覺識別?
人工智能模型可通過反饋循環機制與幻覺檢測工具,實現對部分幻覺現象的實時識別。然而,受限于當前技術水平,其識別的準確性仍存在一定局限性。
人工智能幻覺是否能夠被完全杜絕?
遺憾的是,人工智能幻覺無法被徹底消除。但通過優化訓練數據、增強模型與現實世界的關聯,以及引入人類驗證等方式,可顯著降低幻覺出現的頻率。
HITL測試能否發現傳統AI驗證方法遺漏的問題?
HITL測試能夠充分發揮人類專業知識的優勢,有效識別傳統人工智能驗證手段可能忽視的細微錯誤與故障模式。人工監督有助于捕捉人工智能模型在處理邊緣場景及復雜情境時存在的潛在問題,彌補自動化驗證的不足。
原文標題:Taming AI Hallucinations: Mitigating Hallucinations in AI Apps with Human-in-the-Loop Testing,作者:Indium