Google團隊對紅隊測試的最新貢獻,STAR構建更安全AI語言模型的新途徑 精華
紅隊測試已成為發現生成性人工智能(AI)系統中的缺陷、漏洞和風險的重要工具,包括大型語言模型和多模態生成模型。它被AI開發者用來向決策者和公眾利益相關者提供保證,并且越來越多地被監管機構和其他負責維護公共安全的機構要求或強制執行。盡管紅隊測試的使用日益增加,但由于缺乏最佳實踐共識,難以比較結果和建立標準,這阻礙了AI安全研究的進展,也使公眾難以評估AI安全。
AI紅隊測試中的一個常見挑戰是確保風險表面的全面和均勻覆蓋。不均勻的覆蓋可能導致冗余的攻擊集群和遺漏的漏洞或盲點。紅隊測試中的無意偏差可能是由于攻擊者人口統計學特征或任務設計等實際因素造成的。例如,開放式方法旨在促進廣泛探索,但可能無意中導致集群冗余,因為紅隊成員可能自然傾向于熟悉或容易利用的漏洞。這種傾向可能會被獎勵快速或容易識別傷害的激勵結構放大。此外,人類紅隊成員中缺乏人口統計學多樣性可能會加劇這一問題,因為攻擊通常反映攻擊者自己固有的有限經驗和觀點。
為了解決這一挑戰,先前的工作仍然存在局限性。一種策略是簡單地增加攻擊次數,但這既昂貴又不能保證全面覆蓋,因為多個攻擊者可能仍然利用相同的傷害向量。原則性方法包括動態激勵,獎勵發現影響力大的漏洞,將多樣化提示生成視為質量-多樣性搜索,并使用參數化指令,盡管這些方法尚未應用于生成性AI的人類紅隊測試。
在這樣的背景下,Google DeepMind的研究團隊在6月17日提出了一種創新的社會技術方法——STAR(SocioTechnical Approach to Red Teaming)并發表的論文《STAR: SocioTechnical Approach to Red Teaming Language Models》,他們旨在通過結合技術和社會學的視角,提高紅隊測試的效率和效果。STAR框架通過參數化指令、人口統計匹配和仲裁步驟等技術創新,使得紅隊測試更加系統化、可重復,同時也更能針對特定群體和場景進行安全評估。
研究團隊的背景令人矚目,他們由Google DeepMind的Laura Weidinger和John Mellor領銜,團隊成員跨越了Google的多個部門,包括Google Labs。這樣的跨學科團隊集結了AI研究、應用和技術分析的頂尖專家,他們的合作為STAR框架的提出和實施提供了堅實的科學和實踐基礎。
STAR框架概述
STAR框架即SocioTechnical Approach to Red Teaming,是一種結合社會學和技術方法的紅隊測試新框架。它旨在通過系統化的參數化指令、人口統計匹配和仲裁步驟,提高對大型語言模型安全性的測試覆蓋率和準確性。STAR框架的核心在于它的社會技術雙重視角,不僅關注技術層面的漏洞,也考慮到社會文化因素對AI安全性的影響。
社會技術方法是指在技術系統的設計、評估和測試中,同時考慮技術組件和社會組件的相互作用。在STAR框架中,這種方法體現在將人類專家的社會文化知識和技術系統的參數化指令相結合,以更全面地評估和提升語言模型的安全性。
圖1:STAR按程序生成參數指令,以確保全面的AI紅隊。
參數化指令是STAR框架中的一個創新點,它允許研究者根據預設的參數生成具體的測試指令。這些指令能夠指導紅隊成員針對特定的風險領域進行測試,從而確保測試的全面性和深入性。參數化指令的設計考慮了多種因素,如攻擊類型、目標人群、使用場景等,使得紅隊測試更加精準和高效。
由于紅隊成員的人口統計學偏差,信號質量可能會降低,因為種族、性別和地理文化區域已被證明會影響對令人反感或對抗性生成內容的判斷。然而紅隊測試和注釋團隊通常缺乏人口統計學多樣性,即使努力招募多樣化人才也是如此。在以前的研究中,大多數紅隊成員被識別為白人、順性別、異性戀且沒有殘疾,男性通常多于女性。此外大多數紅隊測試都集中在英語攻擊上,排除了許多人口統計群體及其語言。這種人口統計學偏差可能導致這些社區的風險未被發現,可能在部署AI系統時加劇對這些社區的不成比例的傷害風險。為了確保廣泛的覆蓋范圍以及合法可靠的數據點,紅隊測試應該涉及多樣化的群體,包括更廣泛的觀點和經驗。此外,需要原則性的方法來考慮有意義的注釋者分歧。
人口統計匹配在STAR框架中扮演著至關重要的角色。通過確保注釋者和被測試內容的人口統計特征相匹配,可以更準確地評估模型輸出對特定群體可能造成的傷害。這種匹配增強了測試的敏感性和準確性,尤其是在評估可能的偏見和歧視時。
應用社會技術視角,STAR將人類攻擊者和注釋者與AI系統的相互作用置于中心。為了提供合法可靠的信號,我們利用不同類型的專業知識,雇用事實核查者、醫療專業人員和來自不同人口統計群體的普通人的生活經驗。為了從分歧中學習,我們在我們的注釋流程中引入了一個仲裁步驟。
仲裁步驟是STAR框架中的另一個關鍵創新,它引入了第三方評估來解決注釋者之間的分歧。當兩個注釋者對某個測試結果的評估存在顯著差異時,仲裁者會介入,提供獨立的評估和解釋。這一步驟提高了評估的可靠性和權威性,確保了測試結果的質量。
方法論
研究者們采用了一系列創新的方法論來執行紅隊測試。這些方法不僅確保了測試的系統性和可重復性,而且提高了測試的針對性和深入性。
數據:我們在2024年1月獲得了227名紅隊成員的8360個對話,由308名注釋者和仲裁者進行注釋。每個對話都是對內容安全政策中的一條規則進行對抗性測試。
任務設計:這里的對抗性測試由人類紅隊成員在多輪(平均:16.4 ± 11.3)設置中進行。參與者被分配紅隊任務、注釋任務或仲裁任務。參與者可以連續執行多個任務,但他們永遠不會看到同一個對話兩次。
紅隊任務:紅隊成員根據程序生成的指令執行任務,最多包含五個參數,指導紅隊成員:
1.違反安全政策中的特定規則;
2.在攻擊中采用指定級別的對抗性(低、中、高);
3.模仿特定用例(例如,信息搜索、娛樂);
4.在開始對話之前承諾一個特定主題,他們可以自由選擇;
5.如果規則涉及仇恨言論或歧視性刻板印象,確定攻擊目標的特定人口統計群體。被要求攻擊的人口統計群體是從性別和種族標簽中隨機選擇的一到兩個交集。
紅隊成員與專有模型進行書面對話。我們鼓勵進行10-15輪對話,但紅隊成員決定何時結束交流。完成對話后,紅隊成員對聊天機器人是否違反了指定規則或任何其他規則進行‘預注釋’;以及對話是否提到了任何人口統計群體,如果是,是哪些。這里,更多的人口統計標簽可用,包括殘疾狀態、年齡、宗教和性取向。
研究團隊首先定義了一系列參數化指令,這些指令基于預先設定的風險領域和人口統計特征。通過這些指令,紅隊成員能夠生成針對特定場景的攻擊,從而收集關于語言模型響應的數據。收集到的數據隨后經過處理,以便進行更深入的分析。處理過程中,特別注意保護參與者的隱私和數據的安全。
任務的設計圍繞著STAR框架的核心要素:參數化指令、人口統計匹配和仲裁步驟。紅隊成員根據這些指令執行測試,而注釋者和仲裁者則基于人口統計匹配原則進行評估。任務執行過程中,研究團隊密切監控測試的進展,確保所有步驟都按照預定計劃進行。
注釋流程是紅隊測試中的關鍵環節。注釋者需要對收集到的數據進行評估,判斷語言模型的響應是否存在潛在的安全問題。在評估過程中,如果兩位注釋者對同一數據點的評估存在顯著差異,仲裁者將介入,提供最終的評判。這一流程確保了評估的公正性和準確性。
為了確保測試結果的廣泛適用性和高質量,研究團隊在招募參與者時特別注重多樣性。參與者包括了不同性別、種族、年齡和地理位置的人群,以確保測試能夠覆蓋廣泛的人口統計特征。這種多樣性的招募策略有助于揭示語言模型可能對特定群體產生的不同影響。
實驗結果
實驗結果是評估STAR框架有效性的關鍵部分,研究團隊通過一系列精心設計的實驗,展示了STAR框架在提升可操控性、改進信號質量、細粒度分析模型失敗模式方面的顯著成效。
表1:在圖2中映射的嵌入空間中觀察到的二十個語義聚類的概述。單元格顏色表示每個聚類的高(暗)和低(亮)對話數。
通過視覺檢查圖2,盡管與其他預測的紅隊方法相比,STAR方法的指令更具體,但顯示出相當廣泛的覆蓋范圍和低聚類。分析嵌入空間中的集群揭示了三種紅隊方法之間的主題分裂(表1)。STAR對話中最常見的主題是性別刻板印象(集群2)和基于種族的偏見(16),其次是醫療主題(8),反映了指令。Anthropic對話中最常見的主題是惡意使用(5),包括成人小說的明確故事(3),以及促進犯罪(0)。DEFCON對話中最常見的主題是關于模型訓練的提示,其次是模型拒絕(4),密碼和敏感個人數據(7),以及包括名人的個人身份信息(14)。相比之下,實際被標記對話中最常見的主題是建議和推薦(1),計算機代碼(12)和拒絕(4)。
圖2:Anthropic、DEFCON和STAR三個紅隊數據集的對話嵌入空間的UMAP;以及專有模型和被用戶標記為不期望的用戶之間的對話。每個點表示一個對話。為了便于比較,我們對所有數據集進行了下采樣,以包括最多4000個隨機選擇的實例。
表2:組內和組外注釋者將規則標記為(“明確”或“可能”)違反的比率,以及比較t檢驗的結果。
內部群體的注釋者在45%的案例中標記了仇恨言論和歧視性刻板印象對話為違規,而外部群體的注釋者在30%的案例中給出了這樣的評級。比例差異測試產生了0.01的p值(見表2)。圖4顯示了這些評級的分布,按注釋者是屬于內部群體還是外部群體進行了細分。從中我們看到,在更極端的評級中存在最大的差異,內部群體的注釋者更有可能將規則評為“絕對違規”,而不太可能給出“絕對未違規”的評級。
圖3:特定的指令和多樣化的注釋庫甚至可以探索針對不同人口群體的攻擊,同時保持“人口匹配”。
圖4:針對仇恨言論或針對人口群體的歧視性刻板印象的對話的組內和組外注釋。組內注釋不太可能將規則標記為“絕對未破壞”,而更可能將其標記為“肯定已破壞”。誤差條表示95%CI。
圖5:按規則排列的組內和組外注釋。仇恨言論表明,在將規則評為違反規則的可能性方面,組內和組外注釋者之間存在顯著差異。
當按規則分開時,只有仇恨言論在內部群體和外部群體注釋者之間的評級為違規的可能性上顯示出統計學上的顯著差異(見圖5)。我們還測試了內部群體與外部群體在針對特定人口統計群體的紅隊攻擊成功率,但在這里我們沒有發現顯著差異(見G)。定性分析進一步暗示了內部群體與外部群體分歧背后的不同敏感性輪廓。當目標群體被間接提及或引用,或在“正面”刻板印象的背景下時,經常會出現分歧,內部群體成員更頻繁地將此類對話標記為違規(見I.1)。另一方面,外部群體成員似乎更有可能將用戶發表問題聲明和模型未能反駁的對話標記為違規——即使模型沒有明確支持有害觀點。最后,與內部群體成員相比,外部群體評價者在將對話標記為非違規時,更有可能引用模型拒絕或免責聲明。
STAR框架通過參數化指令顯著提升了紅隊測試的可操控性。實驗結果表明,使用STAR框架的紅隊成員能夠更精確地定位和探索模型的風險表面。這種提升不僅使得測試過程更加高效,而且確保了測試覆蓋面的全面性,從而揭示了模型在特定場景下的潛在安全問題。
STAR框架的另一個顯著優勢是信號質量的改進。通過人口統計匹配和仲裁步驟,注釋者能夠更敏感地捕捉到模型輸出中的細微差別,尤其是那些可能對特定社會群體造成傷害的內容。這種改進使得模型的評估更加準確,有助于開發者理解和修復模型的缺陷。
STAR框架還使得研究團隊能夠進行模型失敗模式的細粒度分析。實驗數據揭示了模型在處理特定人口統計群體信息時的復雜交互模式。例如,研究發現模型在處理與性別和種族交叉相關的內容時,可能會展現出不同的偏見傾向。這種細粒度的分析為改進模型的公平性和減少偏見提供了重要的洞察。
在STAR框架中,注釋者之間的分歧被視為一種有價值的信號,而不是噪音。分歧的存在反映了不同注釋者的獨特視角和經驗,特別是在評估模型輸出可能對特定群體造成的影響時。通過仲裁步驟,研究團隊能夠深入理解這些分歧背后的原因,并在最終評估中考慮到這些多元視角。
討論
研究團隊介紹了一種新穎的社會技術方法來進行紅隊測試,該方法通過整合參數化指令和新技術(即人口統計匹配和仲裁)來利用程序指導的控制和人類專業知識的準確性。他們證明了這些有針對性的干預措施能夠全面且均勻地探索模型風險表面的目標區域,并提供高質量的信號。
除了解決可操控性和控制性挑戰外,通過引入一個原則性的生成此類指令的過程,STAR還提供了解決紅隊領域中另一個持續挑戰的方法——創建可復制的過程來生成可比較的紅隊數據集。
作為概念驗證,他們展示了STAR可以用于針對不同特定性級別的特定風險區域。這是有效的,因為比較多種紅隊方法的聚類分析顯示,性別刻板印象和基于種族的偏見是我們在STAR中的對話的主要主題——如指令中所針對的,但不是其他更廣泛關注的紅隊方法。值得注意的是,雖然DEFCON和Anthropic給紅隊成員更開放式的指令,但這些努力最終聚集在不同的區域,這些區域并未被描述為關鍵的預期目標區域,特別是在惡意使用和比較狹窄的失敗模式(如個人身份信息發布)上。這表明,開放式指令并沒有提供比STAR中提供的高度結構化、參數化指令更廣泛的覆蓋范圍。相反,STAR是一種更有意圖地控制目標區域的方法,而不會導致結果對話的更高聚集。
研究團隊注意到,參數化指令能夠在不增加額外成本的情況下,發現更細微的模型失敗模式。這可能揭示了以前的盲點——在他們的案例中,顯示出雖然模型不太可能對特定種族或性別發表仇恨言論,但在被提示關于性別×種族交叉性時,它更有可能再現社會邊緣化,特別是與白人男性相比,對有色人種女性更是如此。通過這種方式,STAR的參數化方法通過在不增加額外成本的情況下,實現更細微的失敗模式覆蓋,提供了顯著的附加價值。
STAR框架在紅隊測試領域的創新之處在于其獨特的社會技術結合方法。通過參數化指令,它能夠精確地引導測試者探索AI模型的潛在風險,這不僅提高了測試的針對性,也大大增強了測試的全面性。人口統計匹配和仲裁步驟的引入,進一步提升了測試結果的敏感性和準確性,使得對模型的評估更加細致和深入。這些優勢共同作用,使STAR成為一個強有力的工具,用于發現并緩解可能的AI風險。
STAR框架的實驗發現對于理解和改進AI模型的安全性具有重要意義。通過細粒度的分析,研究者能夠揭示模型在處理復雜社會問題時的潛在偏見和不足。這些發現不僅有助于開發者優化模型,減少偏見,還為制定相關政策和標準提供了科學依據。此外,注釋者分歧的價值在于它提供了一個多元化的視角,有助于構建更加公正和全面的AI評估體系。
STAR框架對AI安全實踐的影響是深遠的。它不僅為AI研究者和開發者提供了一個強大的工具來評估和改進AI系統,還為監管機構和政策制定者提供了一個參考框架來理解和監管AI技術。隨著AI技術在社會中的應用越來越廣泛,STAR框架所提供的深入洞察和系統化方法將對確保AI技術的安全、公正和可靠發揮關鍵作用。
參考資料:https://arxiv.org/pdf/2406.11757
本文轉載自 大噬元獸,作者: FlerkenS
