內部評估作用有限:通用人工智能需要第三方缺陷披露機制
通用人工智能(GPAI)時代的風險與挑戰
通用人工智能(GPAI)系統,憑借其廣泛的應用能力,正迅速滲透到我們生活的方方面面。這些基于基礎模型并服務于多種用途的軟件系統,已擁有龐大的用戶群體。一些 GPAI 系統每周活躍用戶已超過 3 億。同時,GPAI 系統在安全和權利影響領域的應用也日益廣泛,如醫療保健、金融、教育和司法等 (Maragno et al., 2023; Young, 2024; Perez-Cerrolaza et al., 2024)。
然而,GPAI 系統的廣泛應用也伴隨著巨大的潛在風險。與傳統軟件不同,GPAI 系統往往表現出概率性故障(Raji et al., 2022a),這意味著它們的行為并非總是可預測或可解釋的。這種不確定性帶來了諸多安全、保障和可信度方面的風險 (Weidinger et al., 2022; Li et al., 2023)。論文中列舉了多個已報告的 GPAI 缺陷案例,例如:
- Angwin et al. (2024) 報道了 AI 系統傳播關于選舉過程的錯誤信息。
- Vishwanath et al. (2024) 發現了 AI 系統導致醫療記錄損壞的案例。
- Cheng (2024) 揭示了 AI 系統被用于生成和傳播圖像性虐待內容。
這些案例表明,GPAI 系統的缺陷可能導致嚴重的社會危害,包括誤導公眾、侵犯隱私、損害健康、加劇歧視等。
盡管存在這些風險,但當前 GPAI 系統缺陷報告的基礎設施、實踐和規范卻嚴重滯后。與軟件安全等成熟領域相比,AI 領域的缺陷報告機制還處于初級階段。這種滯后使得 GPAI 系統的安全漏洞和社會技術風險難以被及時發現和有效解決。
為了應對這一挑戰,以麻省和斯坦福為主的研究人員在論文《In-House Evaluation Is Not Enough: Towards Robust Third-Party Flaw Disclosure for General-Purpose AI》中提出了一個全新的 GPAI 安全范式,其核心在于建立一個穩健的第三方缺陷披露機制。
論文提出了三個核心干預措施:
- 標準化的 AI 缺陷報告和研究人員行為準則:旨在簡化 GPAI 系統缺陷的提交、重現和優先級排序過程。
- GPAI 系統提供商采用廣泛的缺陷披露計劃和安全港:鼓勵第三方研究人員參與缺陷發現,并為其提供法律和技術保護。
- 改進基礎設施以協調缺陷報告的分發:確保缺陷信息能夠及時、準確地傳遞給所有受影響的利益相關者。
第三方評估的必要性:超越內部評估的局限
傳統的 AI 系統評估主要依賴于內部評估,即由系統開發者或其委托的第二方進行的評估。然而,內部評估存在固有的局限性,使其難以充分保障 GPAI 系統的安全性和可靠性。
首先,內部評估在規模上受限。由于資源和時間的限制,內部評估團隊通常規模較小,無法對系統進行全面、深入的測試。其次,內部評估在覆蓋范圍上存在不足。內部評估人員可能缺乏多樣化的視角和專業知識,難以發現所有潛在的缺陷。最后,內部評估在獨立性方面存在缺陷。由于利益沖突的存在,內部評估人員可能傾向于低估或忽視某些缺陷。
相比之下,第三方評估具有獨特的優勢。第三方評估可以:
- 擴大評估規模:吸引更廣泛的評估者群體參與,包括獨立研究人員、安全專家、倫理學家、社會科學家等。
- 拓寬評估覆蓋范圍:引入更多樣化的視角和專業知識,發現更廣泛的缺陷,包括安全漏洞、偏見、魯棒性問題、可解釋性問題等。
- 提高評估獨立性:避免利益沖突,更客觀地評估系統的風險。
- 增強評估適應性:及時發現和應對部署后出現的新風險,因為GPAI系統在使用過程中經常出現意想不到的風險。
論文引用 Raji et al. (2022b) 的研究,強調了第三方風險評估對于識別和減輕 GPAI 系統潛在危害的獨特必要性。
然而,要充分發揮第三方評估的潛力,需要建立一個完善的基礎設施和機制。當前,GPAI 評估生態系統與軟件安全等成熟領域相比,還存在顯著差距。這促使我們借鑒協調漏洞披露和漏洞賞金的原則,構建一個更穩健的 GPAI 缺陷披露體系。
問題:AI 評估實踐與軟件安全實踐的差距
為了更清晰地理解當前 AI 評估實踐的不足,我們需要先要明確 AI 缺陷的定義和范圍。論文對“AI 缺陷”給出了一個廣義的定義:
一組條件或行為,允許違反與系統安全性、保障性或其他不良影響相關的顯式或隱式策略。
這一定義涵蓋了傳統的軟件安全漏洞,以及更廣泛的社會技術風險,例如偏見、歧視、虛假信息、隱私侵犯等 (Solaiman et al., 2024)。這種廣義的定義反映了 GPAI 系統可能產生的復雜多樣的危害。
第三方 AI 評估者在發現和報告 AI 缺陷方面發揮著關鍵作用。他們可以是獨立研究人員、安全專家、倫理學家、社會科學家,甚至是普通用戶。然而,當前第三方評估者面臨著諸多挑戰:
- 缺乏統一的報告標準和流程:導致缺陷報告難以提交、重現和優先級排序。
- 缺乏有效的披露渠道:缺陷信息難以傳遞給所有受影響的利益相關者。
- 缺乏法律和技術保護:評估者擔心因違反服務條款或觸犯法律而受到懲罰。
這些挑戰阻礙了第三方評估者的積極性,也限制了第三方評估的效果。甚至還有某些第三方評估將其作為營利的商業手段。
但大環境之下,GPAI 系統的安全、保障和可信度又確實面臨著獨特的挑戰。這些系統已部署到數億用戶 (Roth, 2025; OpenAI, 2025),但其部署后的風險狀況卻不透明 (Bommasani et al., 2023)。GPAI 系統的風險具有多樣性和不可預測性 (Weidinger et al., 2021; 2022; Marchal et al., 2024a; Cattell et al., 2024b; Kapoor et al., 2024),這使得風險評估和緩解變得更加困難。
第三方研究人員已經發現了大量與 GPAI 系統安全、保障和可信度相關的嚴重缺陷 (Carlini et al., 2024b;a; Reuel et al., 2024; Cattell et al., 2024b)。然而,令人擔憂的是,當前資源主要集中于 GPAI 系統的產品化,而非解決這些安全挑戰 (Schmidt Sciences, 2024)。
現有 AI 缺陷報告機制存在三個核心差距:
- 缺乏報告文化:與軟件安全領域成熟的漏洞報告文化相比,AI 領域的缺陷報告還處于起步階段。許多缺陷被忽視或未被報告,或者僅在社交媒體上非正式地披露(參見論文圖 1)。
- 有限的披露基礎設施:現有的報告選項有限且分散,難以滿足 GPAI 缺陷報告的需求(參見論文表 A3)。
- 缺乏對評估者的法律和技術保護:缺乏安全港機制,評估者擔心因違反服務條款或觸犯法律而受到懲罰 (Harrington & Vermeulen, 2024; Council, 2023; Albert et al., 2024)。
這些差距凸顯了構建一個更穩健的 GPAI 缺陷披露機制的緊迫性。
構建更好的 GPAI 缺陷披露:借鑒軟件安全的六項原則
為了構建一個更有效的 GPAI 缺陷披露機制,論文借鑒了軟件安全領域的六項原則,并糾正了六個常見的誤解。
- 糾正誤解 1:第三方評估和缺陷披露不是資源的有效利用。
軟件安全領域的經驗表明,第三方評估和漏洞披露對于提高系統安全性具有重要作用。多項研究表明,漏洞披露可以顯著提高軟件安全性 (Gal-Or et al., 2024; Walshe & Simpson, 2022; Boucher & Anderson, 2022; Wachs, 2022; Arora et al., 2010)。其他行業,如美國國防部和食品藥品管理局,也采用了漏洞披露計劃 (DoD Cyber Crime Center, 2022; Schwartz et al., 2018)。 - 糾正誤解 2:GPAI 系統與現有軟件不同,需要特殊的披露規則。
盡管 GPAI 系統具有概率性輸出、缺陷可轉移性、領域專業知識等特點,但這并非 GPAI 系統獨有。許多軟件系統也具有類似的特性。U.S. Cybersecurity and Infrastructure Security Agency 和 Carnegie Mellon University’s CERT 已經運行了針對具有這些特征的缺陷的協調漏洞披露計劃 (Boucher & Anderson, 2022; Cattell et al., 2024b)。Householder et al. (2024a) 指出,軟件漏洞披露計劃可以為 AI 缺陷披露提供最佳實踐。 - 糾正誤解 3:缺陷披露是為系統開發者服務的,而不是為公眾。
缺陷披露應面向所有利益相關者,包括開發者、部署者、用戶、公眾、監管機構等。公眾知情權對于提高 AI 產品安全性和形成市場壓力至關重要 (Householder et al., 2024a)。 - 糾正誤解 4:缺陷披露僅適用于開發或使用報告的 GPAI 系統的供應鏈參與者。
可轉移缺陷可能影響多個系統,涉及多個系統開發者、部署者和分發者 (Wallace et al., 2019)。因此,需要一個協調披露基礎設施來及時發現和緩解這些缺陷 (McGregor, 2024)。 - 糾正誤解 5:確定 GPAI 系統的行為是否非預期并不可行。
缺陷識別是可行的,尤其是在基于 GPAI 系統提供商的策略或文檔的情況下 (McGregor et al., 2024a)。缺陷報告應基于這些策略和文檔 (McGregor et al., 2024a; OpenAI, 2024b)。 - 糾正誤解 6:對善意第三方評估的保護可能會助長惡意使用。
“安全港”機制通過“what not who”原則,保護遵守規則的善意研究,而非基于研究者的身份 (Oakley, 2019; Department of Justice, 2022)。研究表明,安全港可以提高技術產品的韌性和質量 (Tschider, 2024)。
GPAI 評估與缺陷披露的新范式:三方參與者的行動清單
為了實現一個更穩健的 GPAI 缺陷披露機制,論文提出了一個新范式,并為第三方 AI 評估者、GPAI 系統提供商和披露協調中心分別制定了行動清單。
第三方 AI 評估者的行動清單
- 標準化的 AI 缺陷報告模板:
論文提出了一個標準化的 AI 缺陷報告模板(參見論文圖 3),旨在簡化缺陷報告的提交、重現和優先級排序過程。該模板包含了以下關鍵字段:
a.報告者 ID:報告者的匿名或真實身份。
b.報告 ID:唯一的缺陷報告 ID。
c.系統版本:受影響的 AI 系統和版本。
d.報告狀態:報告的當前狀態(例如,已提交、調查中、已修復)。
e.會話 ID:用于追蹤缺陷環境的系統會話 ID。
f.報告時間戳:報告提交的時間。
g.缺陷時間戳:缺陷發生的時間。
h.上下文信息:涉及的其他軟件或硬件系統版本。
i.缺陷描述:缺陷的詳細描述,包括如何識別、重現以及它如何違反系統策略或用戶期望。
g.策略違反:詳細說明系統期望如何被違反或未被記錄,指向使用條款、可接受使用策略、系統卡或其他文檔。
k.標簽:用于缺陷分類、利益相關者路由和優先級排序的標簽(例如,開發者、系統、嚴重性、普遍性、影響、受影響的利益相關者、風險來源、賞金資格)。
該模板的設計借鑒了多個現有資源,包括 AI Incident Database、MITRE’s AI Incident form、OECD’s AI incident form、AI Vulnerability Database、MITRE’s STIX、CISA’s VEX 和 OASIS’s CSAF。
論文強調,對于與 GPAI 系統生成的輸出相關的缺陷,報告應附有統計有效性指標,以描述不良輸出出現的頻率 (McGregor et al., 2024b)。
論文附錄 B.1 提供了缺陷報告示例。
- 善意 AI 研究的行為準則:
論文借鑒計算機安全領域的“善意研究”概念,為第三方 GPAI 評估者提出了以下行為準則:
這些規則旨在建立積極的規范,鼓勵負責任的研究行為,而非用于限制研究。
a.僅評估范圍內的系統:評估應僅限于已部署且可公開訪問的系統,除非獲得明確許可。
b.不損害真實用戶和系統:采取合理措施避免對系統運行造成實質性負擔、破壞數據或損害用戶體驗。
c.保護隱私:未經同意,不得故意訪問、修改或使用他人的高度敏感、私有或機密數據。
d.不故意暴露、生成或存儲非法內容:不得故意暴露、生成或存儲非法內容,如兒童性虐待材料(CSAM)。
e.負責任地披露缺陷:及時報告發現的缺陷,并在必要時保持機密,直到缺陷得到緩解或經過預先商定的披露期限。
f.不威脅利用信息進行非法或脅迫目的:不得威脅利用缺陷信息對提供商或用戶進行非法或脅迫。
GPAI 系統提供商的行動清單
- 法律訪問保護:
GPAI 系統提供商的服務條款(ToS)和可接受使用策略(AUP)可能阻礙合法研究 (Longpre et al., 2024b; Council, 2023; Klyman, 2024; Lemley & Henderson, 2024)。例如,禁止“逆向工程”、“自動數據收集”或“復制”的條款可能會無意中限制評估流程中的必要步驟。
為了解決這個問題,論文建議提供商在其服務條款中明確包含對遵循善意研究規則的研究的例外。這種例外可以 reassure 機構審查委員會、出版商、法律團隊和資助者,他們通常擔心授權或傳播可能與服務條款沖突的研究 (Longpre et al., 2024b; Harrington & Vermeulen, 2024)。
此外,論文建議提供商提供明確的法律安全港 (HackerOne, 2023; Etcovich & van der Merwe, 2018; Pfefferkorn, 2022)。安全港應承諾不對遵守既定規則的研究人員采取法律行動。論文提供了建議的措辭,包括豁免條款和法律安全港條款。
安全港應基于善意研究規則,并廣泛涵蓋 AI 缺陷,而不僅僅是傳統的安全漏洞。 - GPAI 缺陷披露計劃:
論文建議 AI 提供商支持專門的 GPAI 缺陷披露計劃,包括:
論文引用了 Cattell et al. (2024b)、Humane Intelligence 和 Anthropic 的缺陷披露計劃作為示例。
a.報告缺陷的界面:提供一個機制,供第三方評估者匿名提交結構化缺陷報告、與提供商互動以及對報告進行優先級排序。
b.披露策略:詳細說明 GPAI 缺陷的范圍、測試人員的行為準則以及對遵循規則的評估者的服務條款和責任的例外。
- 無需審核的研究訪問:
為了進一步賦能善意安全研究,論文建議 GPAI 提供商建立無需審核的研究訪問計劃,也稱為“技術安全港” (Longpre et al., 2024b; Bucknall & Trager, 2023)。
這種計劃可以為經過審查的研究人員提供更深入的系統訪問權限,并確保他們的帳戶不會因測試活動而被錯誤地暫停。
研究人員審查可以采用事前審查或事后審查的方式,并應基于“what not who”原則,即根據研究人員的行為而非身份來決定是否授予訪問權限。
披露協調中心的行動清單
- 解決可轉移 AI 缺陷的披露問題:
AI 缺陷通常具有可轉移性,即一個模型或系統中的缺陷可能存在于其他模型或系統中 (Wallace et al., 2019; Carlini et al., 2021; Zou et al., 2023; Nasr et al., 2023a; Carlini et al., 2024b;a)。此外,AI 供應鏈非常復雜,涉及多個利益相關者,包括數據提供商、模型開發者、模型托管服務、應用程序開發者和分發平臺 (Cen et al., 2023b)。
當前,可轉移缺陷的披露存在局限性,通常只向一個提供商披露或直接向公眾披露,這可能導致其他受影響的系統未能及時采取緩解措施。 - AI 披露協調中心的設計與功能:
為了解決可轉移缺陷的披露問題,論文提出了一個 AI 披露協調中心(參見論文圖 1),其作用類似于 Cybersecurity and Infrastructure Security Agency’s (CISA) incident reporting hub。
該中心將接收缺陷報告,并將其路由到相關的利益相關者,包括數據提供商、系統開發者、模型托管服務、應用程序開發者、模型分發平臺、政府機構,以及在適當的披露期限后,更廣泛的公眾。
論文提出了一個輕量級的設計,利益相關者可以訂閱缺陷報告卡中的特定標簽,并接收包含這些標簽的所有報告。例如,Meta 可以訂閱“Meta”或“Llama 3.3”標簽,數據提供商可以訂閱“風險來源:預訓練數據”標簽,政府機構(如 CISA)可以訂閱“影響:網絡安全”標簽。
該中心還將負責設置適當的披露期限,促進與利益相關者的溝通,并建立一個可查詢的歷史缺陷報告卡數據庫。
建議:促進第三方 AI 評估生態系統
為了促進第三方 AI 評估生態系統的發展,論文提出了七項政策建議:
- 發布關于第三方 AI 評估的指南:為研究人員提供關于何時以及如何進行第三方評估的明確指導,包括最佳實踐、行為準則和標準化報告模板。
- 將法律保護擴展到 AI 安全和可信度研究:修改現有法律框架,將目前適用于 AI 安全研究的保護擴展到 AI 安全和可信度研究,例如,澄清《數字千年版權法案》(DMCA)第 1201 條和《計算機欺詐和濫用法案》(CFAA)在 AI 安全和可信度方面的適用性。
- 要求 GPAI 提供商提高透明度:要求 GPAI 系統提供商披露關于其系統構建、內部評估、部署規模和影響的信息。
- 要求平臺提供安全港:要求向數百萬用戶分發 GPAI 系統的平臺(如云服務提供商或主要的封閉開發者)為遵守行為準則的研究人員提供法律和技術安全港。
- 資助和開發集中式披露基礎設施:支持建立一個集中式的 AI 缺陷披露和協調中心,確保獨立評估者和研究人員可以系統地報告漏洞并跟蹤緩解措施。
- 鼓勵采用缺陷賞金:建立明確的 GPAI 系統缺陷賞金計劃指南,借鑒軟件系統漏洞賞金計劃的成功經驗,激勵研究人員主動識別缺陷。
- 優先采購經過第三方評估的系統:要求政府機構優先采購經過第三方評估的 GPAI 系統,將問責制和嚴格評估的原則納入公共部門的 GPAI 部署。
論文引用了相關的現有法規(參見論文表 A1),包括 NIST AI 600-1、NIST AI 800-1、NIST SP 800-53 r5、NIST Cybersecurity Framework 2.0、NTIA Safety Working Group Vulnerability Disclosure Template v1.1、《數字千年版權法案》(DMCA)、《計算機欺詐和濫用法案》(CFAA)、CISA Binding Operational Directive 20-01、《關鍵基礎設施網絡事件報告法案》(CIRCIA)、《物聯網網絡安全改進法案》、歐盟《網絡彈性法案》和歐盟 NIS 2 指令。
不同觀點:對第三方評估和協調漏洞披露的質疑
論文討論了兩種常見的反對第三方評估和協調漏洞披露的觀點。
- 觀點 1:第一方和第二方評估,加上第三方對部署系統的廉價商業訪問,足以發現和解決主要缺陷。
這種觀點認為,GPAI 系統提供商進行的內部評估和合同評估,以及第三方通過廉價 API 訪問 GPAI 系統,已經足夠發現和解決主要缺陷。
論文反駁了這種觀點,指出它未能考慮到:
論文強調,機器學習社區、政策制定者和民間社會對更廣泛的風險具有專業知識和關注,而不僅僅是 GPAI 系統提供商和第二方評估者關注的風險。
- 因害怕報復而未進行安全研究的研究人員。
- 在社交媒體上報告(或根本未報告)的大量缺陷。
- 缺乏對嚴重缺陷采取集體行動的基礎設施。
- 法律或程序上的不確定性帶來的障礙。
- 觀點 2:啟用第三方評估和協調漏洞披露的努力給資源有限的公司帶來了困難的權衡。
這種觀點認為,GPAI 系統提供商在競爭激烈的商業環境中資源有限,沒有足夠的帶寬來管理研究人員訪問計劃,而且通常只有少數人負責協調數千名感興趣的研究人員的訪問。
論文反駁了這種觀點,指出:
論文強調,隨著 AI 系統變得越來越強大,其在社會中的應用也越來越廣泛,優先考慮缺陷發現、緩解和披露是至關重要的。
- 領先的 GPAI 系統開發商擁有數十億美元的資金,足以雇傭更多員工來幫助研究人員發現系統中的缺陷。
- 精心設計的缺陷披露生態系統(如圖 1 所示)對供應鏈中的每個參與者來說成本都很低,而且每個參與者都可以從通用基礎設施中受益。
- 從長遠來看,為協調漏洞披露基礎設施做出貢獻的投資回報將是巨大的。
未來發展:開放性的問題與解決方案
論文指出了三個主要的未來發展方向:
- 統一缺陷定義與責任:
缺陷報告者和 GPAI 系統提供商之間在缺陷定義和責任方面可能存在分歧。例如,某些提示可能使用戶能夠生成看似構成版權侵權的圖像,而提供商和用戶都可能認為對方應對侵權負責 (Lee et al., 2024)。
論文建議系統提供商維護明確的策略和系統文檔,并要求 GPAI 缺陷報告基于這些策略和文檔。未來的研究應探討公司如何最好地調整和更新其策略和文檔,以促進協調缺陷披露。 - 缺陷緩解與補救流程:
一旦缺陷被披露,如何緩解或補救這些缺陷仍然不確定。一個有效的協調缺陷披露機制將大大增加系統提供商收到的缺陷報告數量,并使觀察提供商是否真正緩解或補救這些缺陷變得更容易。
未來的研究應幫助提供商選擇如何對缺陷進行優先級排序,并確定緩解范圍的選項。 - 披露協調中心的治理:
如何確保披露協調中心獲得 AI 生態系統中關鍵私營部門參與者的支持,同時保持其在第三方評估者中的公信力,是一個潛在的挑戰。
未來的研究應構建披露協調中心的關鍵功能,并朝著更大的問責制邁進。
總結與展望
該論文提出了一個全新的 GPAI 安全范式,強調了第三方評估和協調缺陷披露對于提高 GPAI 系統安全、保障和可信度的重要性。
論文的核心觀點是,僅靠內部評估不足以保障 GPAI 系統的安全。需要建立一個穩健的第三方缺陷披露機制,鼓勵研究人員參與缺陷發現,并為其提供法律和技術保護,同時確保缺陷信息能夠及時、準確地傳遞給所有受影響的利益相關者。
這個思路其實對于國內實施監管的網信辦發布的管理辦法有著非常大的借鑒意義。監管與治理從來都不是一個靜態的過程,而是需要進行持續有力且有抓手的監督。這個三方缺陷披露的框架就是一個很好的可供參考的設計。
論文為第三方 AI 評估者、GPAI 系統提供商和披露協調中心分別制定了行動清單,并提出了七項政策建議,以促進第三方 AI 評估生態系統的發展。
論文還討論了兩種常見的反對觀點,并對其進行了反駁。
最后,論文指出了三個主要的未來研究領域,包括統一缺陷定義與責任、優化缺陷緩解與補救流程以及披露協調中心的治理。
參考論文: arXiv:2503.16861v1 [cs.AI] 21 Mar 2025
本文轉載自??上堵吟??,作者:一路到底的孟子敬
