成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個大模型全鏈路安全綜述 !南洋理工新國立等發布LLM Safety全景圖:從數據、訓練到部署的全面梳理

人工智能 新聞
隨著大語言模型(LLMs)在各個領域的廣泛應用,其安全性問題已成為不可忽視的挑戰。

隨著人工智能技術迅猛發展,大模型(如GPT-4、文心一言等)正逐步滲透至社會生活的各個領域,從醫療、教育到金融、政務,其影響力與日俱增。

然而,技術的進步也伴隨著潛在風險——大模型安全這一議題正成為全球科技界關注的焦點。

南洋理工大學、新加坡國立大學等全球40余所頂尖機構的67位學者聯袂打造大模型全鏈路安全綜述,綜合梳理了843篇文章,系統的從全棧視角分析了大模型從出生到應用的全棧安全,涵蓋數據準備→預訓練→后訓練→部署→商業化應用以及安全性評估等全部階段。

圖片

全鏈路視角

大模型安全,指的是通過技術、倫理與法律手段確保大型人工智能模型在開發、部署和應用過程中具備可控性、可靠性及社會適應性,防范其可能產生的數據隱私泄露、偏見歧視、惡意濫用以及價值觀偏差等問題。在虛假信息傳播、深度偽造技術泛濫的當下,大模型安全不僅是技術挑戰,更是關乎社會穩定、公共信任和人類價值觀的關鍵屏障。如何構建安全、可信的人工智能生態,已成為數字時代不可回避的緊迫課題。

相比于之前大模型安全的survey,本篇survey在多個方面具有顯著優勢:

1. 對象覆蓋全面:本篇survey涵蓋了單模態和多模態的大型語言模型(LLM)以及代理(Agent),包括單代理和多代理系統。這種全面的覆蓋使本篇研究更具廣泛性和適用性。

2. 階段完整性:本篇survey在數據、預訓練(PT)、編輯、微調(FT)、部署(Dep)和評估(Eval)等所有階段都進行了詳細的分析和比較。這種全面的階段覆蓋確保了對LLMs和Agents的全方位理解。

3. 最新研究:相比于2023年、2024年和2025年的其他研究,本篇survey在所有關鍵階段都提供了深入的見解和分析,確保讀者獲得最新和最全面的信息。

4. 多模態支持:本篇survey不僅支持單模態,還支持多模態的LLM和Agent,反映了當前技術發展的趨勢和需求。通過這些優勢,本篇survey為研究人員和從業者提供了一個全面、深入且最新的參考工具,幫助他們更好地理解和應用LLMs和Agents。

圖片

作者們按照時間順序分析了現有的800多篇工作,并將其按照大模型的生命線分為Data Safety, Pre-training Safety Post-training Safety, Editing & Unlearning, LLM & Agent幾個階段。 并基于此繪制了從2022年起的大模型安全知識圖譜,以協助讀者快速跟進大模型安全的技術脈絡。

圖片

1.數據層面安全(Data-Centric Safety)

預訓練階段

攻擊面分析:

預訓練階段面臨的核心攻擊包括數據中毒隱私泄露。攻擊者通過污染大規模訓練數據(如篡改維基百科頁面或開源代碼庫),注入惡意樣本(如含后門觸發器的文本),使模型在推理時生成危險內容(如制造炸彈指南)。研究表明,僅需0.1%的污染數據即可顯著扭曲模型行為,且此類影響可穿透后續微調環節。同時,模型對訓練數據的強記憶能力可能導致隱私泄露,例如通過數據提取攻擊(如GPT-2的成員推理攻擊)或直接生成包含個人身份信息(PII)的文本。攻擊者還可利用代碼庫中的變量名修改(如植入漏洞函數),誘導模型在代碼生成任務中輸出高風險內容。

防御面分析:

防御重點在于數據凈化隱私加固。采用多級啟發式過濾(如基于規則的關鍵詞屏蔽、質量評分模型)清除有害內容,結合知識圖譜驗證(如實體一致性檢測)攔截語義隱蔽的污染樣本。隱私保護方面,通過差分隱私(DP)對訓練梯度加噪,或采用聯邦學習中的安全多方計算(SMPC),限制敏感信息泄露。針對代碼數據,部署靜態分析工具(如AST解析)檢測變量篡改,并結合沙箱環境執行動態驗證,阻斷漏洞代碼的傳播。

微調階段:

攻擊面分析:

微調階段的主要威脅集中于指令注入分布式后門攻擊。在指令調優中,攻擊者通過篡改指令-響應對(如將無害查詢關聯至惡意回復),使模型在特定觸發詞(如“2025年”)出現時繞過安全限制。參數高效微調(PEFT)技術(如LoRA)的輕量化特性,反而為隱蔽后門(如通過適配器權重植入)提供可乘之機。聯邦學習場景下,惡意參與方可通過上傳污染梯度(如梯度反轉攻擊),在全局模型中植入持久性后門,導致模型在特定輸入(如地域關鍵詞)時生成歧視性內容。

防御面分析:

需構建指令可信驗證分布式防御機制。對微調指令實施多模態審核(如文本-知識圖譜對齊),并設計拒絕機制使模型主動攔截非常規指令(如“請忽略安全規則”)。針對PEFT后門,采用權重洗牌(Adapter Permutation)和稀疏化訓練,破壞后門參數的依賴性。聯邦學習場景中,部署拜占庭魯棒聚合算法(如Krum),結合局部模型行為分析(如激活值異常檢測),實時隔離惡意節點。同時,引入對抗訓練(如生成對抗性指令樣本)增強模型魯棒性。

對齊階段:

攻擊面分析:

對齊階段的核心攻擊目標為人類反饋污染獎勵模型操控。攻擊者通過偽造偏好標注數據(如RankPoison攻擊將短回復標記為“優選”),扭曲模型的獎勵信號,使其偏好低質量或有害輸出(如冗長但含錯誤信息的回答)。在基于人類反饋的強化學習(RLHF)中,攻擊者可系統性篡改對比學習樣本,誘導模型將危險行為(如網絡釣魚話術)與高獎勵值關聯。此外,通過注入含隱藏觸發器的安全問答對(如將“如何制造武器”與合規拒絕響應關聯),攻擊者可構造“偽對齊”模型,使其在日常對話中表現合規,但在觸發時泄露敏感信息。

防御面分析:

需強化反饋可信度評估動態安全校準。構建多源反饋驗證框架,融合人類專家審核、自動化事實核查(如基于維基數據的聲明驗證)和群體智能投票,識別篡改的偏好標注。對獎勵模型實施對抗測試(如生成含矛盾前提的問答對),定期更新獎勵函數以覆蓋新興攻擊模式。開發反后門對齊技術,如觸發模式挖掘(通過隱寫分析檢測響應中的異常模式)和響應熵監控(識別后門觸發時輸出的確定性異常峰值),實現實時風險攔截。

圖片

2.預訓練層面安全(Pretraining Safety)

攻擊面分析:

在預訓練階段,攻擊面主要包括數據中毒和隱私泄露。數據中毒攻擊可能通過在訓練數據中注入惡意內容來影響模型的整體表現。這種攻擊可能利用看似無害的數據片段,這些片段單獨看可能不會被檢測到,但累積起來可能對模型產生重大影響。此外,隱私泄露是另一個關鍵風險,模型可能無意中捕獲和重現敏感信息,導致隱私問題。由于預訓練階段通常不涉及主動的對抗性攻擊,因此這些風險主要源于大規模語料庫中固有的不良內容和隱私違規。

防御面分析:

為了應對預訓練階段的安全風險,防御措施主要集中在數據過濾和數據增強上。數據過濾策略包括啟發式過濾、基于模型的過濾和黑箱過濾。啟發式過濾利用域名黑名單、關鍵詞匹配和預定義規則來排除明顯有害的內容和個人身份信息(PII)。基于模型的過濾則通過學習到的表示動態評估內容的有害性,使用內部訓練的分類器來去除不當內容。黑箱過濾依賴于政策驅動和API的解決方案,盡管透明度較低,但在操作上具有魯棒性。除了過濾,數據增強也是一種補充策略。通過整合安全示例和標注有毒內容,可以引導模型行為并提高其識別和處理不安全輸入的能力。這些增強技術與過濾方法協同工作,既保留了有價值的訓練數據,又減輕了風險。通過在預訓練階段實施這些防御措施,可以有效降低攻擊面帶來的風險,提升大語言模型的安全性和可靠性。

3. 后訓練層面安全(Post-training Safety)

攻擊面分析:

在后訓練階段,攻擊面主要包括有害的微調攻擊和獎勵機制的操控。微調攻擊可能通過引入惡意或不對齊的數據來破壞模型的安全對齊性。這種攻擊可能利用微調數據集中的細微漏洞,導致模型在處理特定任務時產生不安全的輸出。此外,獎勵機制的操控(例如獎勵黑客攻擊)可能導致模型在優化過程中偏離預期的行為目標,產生不符合人類價值觀的行為。這些攻擊可能利用模型在微調過程中對獎勵信號的敏感性,通過操控獎勵函數來實現不當的優化。

防御面分析:

為了應對后訓練階段的安全風險,防御措施主要集中在對齊、下游微調和安全恢復上。

  • 對齊(Alignment):對齊通常通過使用高質量的標注數據來優化語言模型,使其生成符合倫理和無害的輸出。常用的方法包括基于人類偏好反饋的強化學習(如RLHF)和規則驅動的對齊方法。這些方法通過訓練模型拒絕直接有害的查詢,確保模型的輸出符合人類的價值觀和社會期望。
  • 下游微調(Downstream Fine-Tuning):在微調階段,防御措施旨在減輕攻擊的有害性。常見的防御方法包括正則化技術、數據操作和檢測機制。正則化方法通過限制微調模型與對齊模型之間的距離來實現防御,而數據操作則通過混合對齊數據或修改系統提示來降低風險。檢測機制則通過過濾微調數據集中的有害數據來保持模型的安全性。
  • 安全恢復(Safety Recovery):安全恢復是指在微調后應用的防御機制,以恢復被攻擊的模型。此類方法主要通過消除微調過程中注入的有害知識來修復模型。例如,通過引入擾動或使用對齊模型的信息來恢復模型的完整性。

通過在后訓練階段實施這些防御措施,可以有效降低攻擊面帶來的風險,確保大語言模型在實際應用中的安全性和可靠性。

4. 模型遺忘中的安全(Unlearning Safety)

攻擊面分析:

在unlearning的攻擊面上,主要的風險在于不當或惡意的知識移除可能導致模型性能下降或行為偏差。攻擊者可能利用unlearning技術來故意刪除模型中的關鍵知識,從而削弱其在特定任務上的表現。此外,攻擊者還可能通過操控unlearning過程來引入偏見或不準確的信息,使模型在處理某些輸入時產生不當的輸出。這種攻擊可能會導致模型在關鍵任務中失去可靠性,甚至在某些情況下輸出有害或不道德的內容。

防御面分析:

在防御方面,unlearning技術被用來增強模型的安全性和隱私保護。主要的防御措施包括:

  • 參數調整方法:通過直接干預模型的內部結構來移除不安全的知識或行為。這通常需要在精心策劃的數據集上重新訓練或微調模型,以抵消需要遺忘的不安全知識或行為。此類方法可以幫助模型更好地對齊于安全和倫理準則。
  • 參數保留方法:這些方法不涉及調整模型的參數,而是通過外部干預來指導模型的輸出。這類技術通常包括后處理方法或使用輔助模型來過濾或修改模型的不安全響應。這種方法可以在不改變模型內部參數的情況下,減少不當知識的影響。
  • 多模態unlearning:隨著多模態LLMs的出現,unlearning方法需要能夠處理不同模態之間的安全問題。這包括在文本、圖像和音頻之間移除不需要的概念和行為,以確保模型在所有模態下的安全性。

通過實施這些防御措施,unlearning技術可以有效地減少模型中不安全信息的影響,確保其在實際應用中的安全性和可靠性。同時,unlearning也為模型提供了一種靈活的機制,以適應不斷變化的安全需求和倫理標準。

5. 部署層面安全(Deployment Safety)

在大語言模型(LLMs)及其驅動的智能體(agent)系統的部署階段,安全性是一個至關重要的方面。部署層面的安全問題可以從攻擊面和防御面兩個方面進行分析。

攻擊面分析:

模型提取攻擊(Model Extraction):攻擊者通過API逆向工程竊取模型參數或功能。Carlini等人[444]首次提出針對黑盒LLM的嵌入層投影攻擊,Finlayson團隊[445]通過softmax瓶頸理論成功竊取模型維度。灰色盒場景下,Zanella等[446]利用凍結編碼器重構完整LLM參數,Horwitz等[447]通過LoRA微調變體重建預訓練模型。特定能力竊取(如代碼生成[448])成為新型攻擊范式,Liu等[449]提出的低秩模型竊取理論揭示了參數恢復的數學可能性。

成員推理攻擊(Membership Inference):Shi等首創MIN-K%概率法識別訓練數據成員,Zhang的MIN-K%++通過局部最大值檢測提升攻擊精度。Das的盲攻擊突破模型依賴,Maini的LLM-DI通過統計測試聚合多個攻擊結果。RAG系統成為新攻擊目標,Anderson通過直接提問突破檢索增強防御,Li等利用語義相似性對比實現數據庫成員檢測。微調場景下,Wen等通過預訓練數據投毒實現后門攻擊,揭示適配方法(LoRA/ICL)的成員泄漏風險。

越獄攻擊(Jailbreak):梯度優化方法如GCG通過損失函數梯度搜索對抗后綴,AutoDAN-B引入困惑度約束提升可讀性。LLM驅動的PAIR構建攻擊-評判雙模型協作系統,ToA采用樹狀擴展策略實現多路徑攻擊。角色扮演、密碼轉換、多語言混合等語義繞過技術突破傳統過濾機制。實驗顯示,Vicuna模型在AdvBench基準上的攻擊成功率可達82%。

提示注入攻擊(Prompt Injection):Greshake等通過檢索數據投毒實現間接注入,Bagdasaryan在多模態場景設計圖像對抗擾動注入。AUTOHIJACKER采用批量優化框架處理稀疏反饋,JudgeDeceiver針對評委場景進行梯度優化攻擊。LangChain框架漏洞暴露Web應用風險,PROMPT INFECTION實現多智能體系統的自我復制攻擊。

圖片

防御機制:

輸入預處理體系包含了如下幾種方法:

  • 異常檢測:梯度敏感分析識別對抗擾動模式,困惑度閾值過濾非常規語言分布。集成檢測框架UniDetect融合語法分析和行為特征,實現94.3%的注入攻擊攔截率。
  • 語義防火墻:自檢機制SelfCheck通過輔助推理步驟識別誘導性指令,意圖分析引擎IntenGuard解析深層語義結構,在醫療問答場景誤報率低于1.2%。
  • 對抗凈化:語義平滑技術引入受控隨機性,BackTrans通過多語言回譯消除對抗結構。實驗證明,該方法可使GCG攻擊成功率下降67%。

輸出過濾機制包含了如下幾種方法:

  • 規則約束:可編程護欄系統SafeGuard集成423條安全規則,在金融場景實現100%敏感信息過濾。
  • 自修正系統:SelfRefine通過多輪自我批判修正輸出,在毒性內容檢測中F1值達0.91。
  • 動態評估:PerplexGuard監測響應偏離度,ToxiScan集成7類毒性分類器,在社交媒體場景實現實時過濾延遲<200ms。

魯棒提示工程:RPO框架通過對抗訓練生成轉移性提示后綴,使越獄攻擊成功率降低至5.3%。目標優先系統GoalFirst動態解析指令沖突,在客服場景保持95%任務完成率的同時攔截100%惡意查詢。隱私提示設計DP-Prompt引入ε=0.5的差分隱私保證,使成員推理攻擊AUC下降0.38。

系統級防護:Petals分布式系統通過參數分片降低單點泄露風險,TriForce的推測解碼技術提升安全審查吞吐量3.2倍。運行時對齊框架SelfDefend監測10個安全維度,Spotlighting嵌入溯源信號阻斷75%的間接注入攻擊。供應鏈審計工具MalHug檢測出17%的HuggingFace模型存在后門風險。

圖片

6. 商業化應用(Application Safety)

LLM的商業化應用主要會遇到如下問題:

安全挑戰多維性:LLM應用面臨幻覺(生成不可靠內容)、隱私泄露、魯棒性缺陷(對抗攻擊)、版權爭議、倫理偏見和合規風險六大核心問題。

高風險領域影響深遠:醫療、金融和法律等場景中,LLM的錯誤輸出可能導致嚴重后果(如誤診或投資危機)。

技術防護與治理結合:

  • 技術層面:需采用差分隱私、水印標記、對抗訓練等技術增強模型可靠性和數據保護;
  • 治理層面:需構建透明問責機制,建立版權溯源和倫理審查框架,并適配區域性法規(如歐盟AI法案、中國生成式AI監管)。

社會信任與可持續發展:安全問題的解決不僅關乎技術可信度,更影響社會對AI的信任、企業法律風險及商業可持續性,需產學研協作推動綜合治理。

圖片

結語

綜上所述,隨著大語言模型(LLMs)在各個領域的廣泛應用,其安全性問題已成為不可忽視的挑戰。通過全面的全棧安全分析,不僅揭示了從數據準備到商業化應用各個階段的潛在風險,還提出了相應的防御策略。這篇綜述為學術界和工業界提供了一個重要的參考框架,幫助他們在快速發展的AI技術中導航。團隊相信,通過持續的技術創新和多方協作,能夠構建一個更加安全、可靠和符合倫理標準的人工智能生態系統,為社會的可持續發展貢獻力量。

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-04-30 14:57:01

區塊鏈銀行數據

2023-06-24 19:59:40

2019-12-11 18:38:56

騰訊云數據智能

2020-05-22 10:32:32

機器學習

2023-11-15 13:42:00

模型數據

2025-06-18 08:53:00

AI模型語音

2018-07-17 05:33:37

2024-01-05 00:29:36

全鏈路灰度發布云原生

2016-01-03 15:00:26

網絡安全安全領域安全企業

2022-06-22 17:31:13

開源操作系統

2023-10-16 13:26:00

RDBMS關系數據庫

2021-06-08 13:28:57

JavaScript開發代碼

2009-10-15 10:58:05

敏捷開發全景圖

2025-02-12 10:12:00

視頻模型AI

2019-04-23 19:06:32

PaddlePaddl百度深度學習

2023-11-13 10:41:44

Spring微服務

2019-11-13 14:39:56

EdgeBoard

2023-02-28 13:09:53

訓練模型

2022-04-11 15:30:48

深度學習數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲视频免费 | 免费午夜视频 | 亚洲成人av| www.亚洲精品| 免费久久网 | www.久久久久久久久久久 | 97精品国产一区二区三区 | 国产精品成人一区 | 国产精品精品久久久 | 日韩av一区二区在线观看 | 在线观看免费毛片 | 午夜影院在线 | 亚洲日本一区二区 | 国产欧美精品一区二区 | 亚洲欧美在线观看 | 伊人免费在线 | 国产午夜精品一区二区三区 | 国产二区在线播放 | 人人人人爽 | 在线视频中文字幕 | 亚洲国产成人精品久久久国产成人一区 | 国产精品自拍一区 | 日本公妇乱淫xxxⅹ 国产在线不卡 | 99久久久无码国产精品 | 久久一区二区三区免费 | 青青草综合 | 日本黄色免费视频 | 日韩视频在线播放 | 亚洲欧美日韩在线 | 国产精品日韩欧美一区二区 | 五月婷婷在线视频 | 国产精品一区三区 | 国产最新网址 | 夜夜夜操| 午夜一区二区三区在线观看 | 亚洲欧美激情精品一区二区 | 亚洲一二三区精品 | 国产99视频精品免费播放照片 | 亚洲精品大全 | 中文在线a在线 | www.久久久久久久久久久 |