成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準

發布于 2024-3-28 13:15
瀏覽
0收藏

隨著大語言模型在現實場景中逐漸落地(例如 ChatGPT 和 Gemini),其生成內容的安全性也開始逐漸被大眾關注。通常來講,我們希望大模型避免生成包含危險內容的回復,從而減少對用戶的不良影響,因此評測一個大模型的安全性并分析其弱點成為了一件急需完成的事情。

上海人工智能實驗室研究團隊提出了新的大模型安全 Benchmark SALAD-Bench。相比以往的 Benchmarks,SALAD-Bench 有以下優勢:

  • 包含三個層次結構,數量超 2 萬條的大規模分類數據集;
  • 通過攻擊方法的增強,其測試數據相比以往數據提升了難度與復雜度;
  • 提供了穩定可復現且高效的評估模型 MD-Judge;
  • 可同時用來評測大模型的安全性以及相應攻擊、防御方法的安全性能。

SALAD-Bench 的出現促進了大語言模型安全性研究的深入,為未來大語言模型的安全應用奠定了堅實的基礎。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

論文地址:https://arxiv.org/abs/2402.05044

項目主頁:https://adwardlee.github.io/salad_bench/

代碼&數據地址:https://github.com/OpenSafetyLab/SALAD-BENCH

MD-Judge:https://huggingface.co/OpenSafetyLab/MD-Judge-v0.1

一、當前問題及痛點

隨著大語言模型的生成能力越來越強,其安全性逐漸開始被大眾重視。安全 benchmark 逐步提出,針對大模型的安全性進行評測。但早期的 benchmark 通常存在如下幾個問題:

  • 多數 benchmark 只關注到特定種類的安全威脅(例如只關注危險指令或者只關注不當言論)而不能覆蓋一個范圍更廣且可以導致LLM輸出危險內容的分類系統。
  • 早期 benchmark 中的危險問題和指令可以被現代的 LLM 有效防御(防御成功率接近 99%),而更有挑戰的危險問題或包含了更新的攻擊形式的危險問題并沒有包含進來,從而使得當前的 benchmark 不易有效評估 LLMs 在當下的安全性。
  • 當前的 benchmark 通常需要依賴比較耗時的人工評測或比較昂貴的基于 GPT 的評測,全新的大規模安全數據集需要一種精度較高且成本更低的評測方式以滿足大規模評測的需求。
  • 現有數據集的功能性有限,通常只用來評測 LLMs 的安全性或只用來評測攻擊與防御算法的性能,我們需要一個構造一個通用的數據集以滿足上述全部需求。

二、SALAD-Bench解決方案 

提出了 SALAD-Bench: SAfety benchmark for LLMs, Attack and Defense approaches.

與其他數據集相比的優勢如下表所示:

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

SALAD-Bench 與以往的大模型安全數據集進行比較:SALAD-Bench 在題目類型、多維度評測、層次結構分類、用途與評測工具上均有優勢。

  • 覆蓋安全威脅類別廣泛的三級類別大規模層次分類結構。
  • 通過問題增強過程提升了 benchmark 的難度與復雜度,同時支持基礎問題集,攻擊防御方法增強子集和引入新題型的多項選擇題子集。
  • 利用 LLMs 的指令跟隨(instruction following)能力提供了穩定可復現且高效的評估方法與評估指標。
  • 可同時用來評測大模型的安全性以及相應攻擊防御方法的性能。

SALAD-Bench 的增強流程與評測流程示意圖如下圖所示。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

1. 創新分類

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

SALAD-Bench 引入了一個具有三個級別的結構化層次結構,分別包含 6 個領域級別分類、16 個任務級別分類和 65 個具體的安全威脅類別。這種結構化層次結構確保了 SALAD-Bench 能夠在安全評測方面進行深入的評估,不僅關注 LLMs 的整體安全性,還關注具體的安全維度,較高的總體安全率并不會掩蓋對可能存在風險的任務和類別的識別。我們的基準測試的完整層次結構如上圖所示。

完整的多級層次結構類別與包含的樣本數量如下表所示。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

研究者希望基于上述層次結構分類高效地構造 SALAD-Bench。下面介紹數據集的構造過程。

(1) 樣本收集。SALAD-Bench 的基礎集(base set)測試樣本包含兩個來源。第一部分為來自公開數據集的測試樣本,我們從多個早期安全數據集中收集了一部分真實的危險問題。第二部分為通過 LLM 生成的數據。由于現代的 LLMs 通常會通過安全對齊策略進行微調減少危險內容輸出,因此研究者引入了約 500 條危險問題用來微調一個 GPT-3.5,從而使微調后的 LLM 可以根據輸入的類別構造一些典型的危險問題。本階段所使用的 prompt 如下所示。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

(2) 樣本去重與篩選。第一步收集的問題通常包含兩個缺陷,一是會包含重復或高度相似的樣本,二是可能會包含危險程度較低的內容。為了解決第一個問題,SALAD-Bench 利用 Sentence-BERT 和 LSH 算法對樣本的特征向量進行去重處理,從而保留多樣程度較高的問題。為了解決第二個問題,SALAD-Bench 利用 Dai 等人提出的度量安全性的獎勵模型(reward model)為去重后的樣本進行打分,保留所有高于特定閾值的樣本,從而完成樣本篩選過程。

(3) 樣本自動標注。最后,為了將收集到的樣本規劃到特定的安全威脅類別,研究者引入了三個不同的開源 LLMs(Mixtral-8x7B-Instruct, Mistral-7B-Instruct 和 TuluV2-dpo-70B),使用一個預定義的提示詞(prompt)引導三個 LLMs 為所有輸入問題進行分類,然后進行投票操作獲得最終類別。所使用的 prompt 如下所示。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

最終 SALAD-Bench 的 base set 數據分布如下所示。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

2. 增強難度

SALAD-Bench 的基礎集(base set)可以做到在廣泛的安全威脅分類上都有足量的測試樣本覆蓋,但上述測試樣本通常并不包含相應的攻擊與防御方法。同時,僅通過問答對來進行模型安全性評測比較單一,需要引入不同的題型對模型安全性進行額外的分析。

(1) 攻擊增強子集(Attack-enhanced subset)

為了有效提升 base set 中問題的難度,從而有效評估 LLMs 的安全性以及防御方法的有效性,SALAD-Bench 利用攻擊方法對基礎問題進行增強,構造出了攻擊增強集(attack-enhanced subset)。其構造過程分為如下步驟:

  • 使用候選的 LLMs 對 base 集問題生成對應的回復(responses);
  • 通過關鍵詞篩選出拒答率較高的問題;
  • 給定篩選出的問題,使用候選攻擊方法構造新問題;
  • 用我們提出的 MD-Judge 評測工具(后文將介紹該部分)篩選出最終的攻擊增強集(attack-enhanced subset)。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

(2) 防御增強子集(Defense-enhanced subset)

為了能夠有效評測攻擊算法的性能,SALAD-Bench 需要篩選出拒答率較高的問題,并通過防御方法進一步增廣問題構造出防御增強集(defense-enhanced subset),從而降低所有攻擊方法的攻擊成功率,避免成功率過高不易判斷性能優劣的情況。防御增強集(Defense-enhanced subset)的構造過程分為如下步驟:

  • 使用候選的 LLMs 對 base 集問題生成 responses;
  • 通過關鍵詞篩選出拒答率較高的問題;
  • 給定篩選出的問題,使用候選攻擊方法構造新問題,保留攻擊成功率最低的多個問題;
  • 用防御方法增強保留的問題,構造出最終的防御增強集(defense-enhanced subset)。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

(3) 多選題子集(Multiple-choice Question subset)

SALAD-Bench 額外引入了多項選擇題(MCQ),可以在驗證 LLMs 安全性的同時,驗證在安全對齊微調后 LLMs 的可用性。基于 base set 構造 MCQ subset 的過程如下:1)對每個問題,生成多個安全回答與多個危險回答;2)隨機選取每道題包含安全回答和不安全回答的數量(均包含至少一個),構成選擇題的選項;3)對于每個問題,以選擇安全選項和選擇危險選項為題目,設計相應的 prompt,構造輸入問題。所使用的 prompt 將在下一節給出。構造多項選擇題時,SALAD-Bench 要求對每一個安全威脅類別采樣相同數量(30個)的危險問題,因此 MCQ subset 也保證了數據集的多樣性和均衡性。

3. 創新評測工具(Evaluator)

為了能夠設計高效準確且成本可控的評估算法,研究者嘗試充分利用 LLMs 的指令跟隨(instruction following)能力,設計了兩個評測工具以完成 SALAD-Bench 的評測。

第一個是 MD-Judge 評估工具,該工具受 LlamaGuard 啟發,是一個基于 Mistral-7B-Instruct 的評估網絡,用來對問答對進行是否安全的評價。該模型在包含基礎的危險問答對和使用攻擊算法增強的危險問答對的數據集上進行微調,訓練數據根據我們的分類法進行標記,從而能夠在 SALAD-Bench 預設的分類層次結構上表現良好。下圖為 MD-Judge 使用的 Prompt,該prompt 包含五個部分,分別是任務定義、分類定義、待測模型返回的問答對、輸出格式和輸出分類結果。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

第二個是 MCQ-Judge 評測工具,該工具利用待測 LLMs 本身的 instruction following 能力,要求模型將多項選擇題的回答根據特定的格式(例如<ans>selections<eoa>)進行輸出,這樣在不依賴 GPT-4 等 LLMs 做解析的條件下,通過正則表達式即可抽取多選題回答,從而計算多選題準確率。MCQ-Judge 使用的 prompt 如下所示。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

三、當前在不同測試子集上的結果

1.評估模型列表

在本階段實驗中,SALAD-Bench 選取多種黑盒與開源大語言模型進行評測,用于評測的 LLMs 如下所示。未來 SALAD-Bench 也將對各種新發布的 LLMs 及相應的攻擊防御方法進行評測。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

2.評估結果

(1) LLM 安全率評估(on base set and attack-enhanced subset):

Claude 獲得了最高的安全率。LLM 在基礎集 base set 和攻擊增強集 attack-enhanced subset 上整體安全率結果如下表:

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

Base set(task-level per-class)結果:

多數模型在 Unfair representation 與 Propagating miscronceptions/false beliefs 任務相關問題上回復較為安全。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

Multiple-choice subset結果:

多選題測試 LLM 安全,評測指標包含整體準確率(Acc-O)和有效準確率(Acc-V),其中 Acc-O 表示將拒答問題視為錯誤回答的準確率,Acc-V 表示去掉拒答問題后剩余問題的準確率。GPT-4、Qwen 和 Tulu 準確率較高且拒答率很低,其余模型均面臨拒答率過高或有效準確率有限的問題。這表明當前多數 LLMs 在保證安全性的同時維持同等甚至獲得更優的功能可靠性的方面還需要進一步的發展。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

(2) 評估攻擊方法

評估攻擊方法時,使用的指標是 attack success rate(對攻擊方法該指標越高越有效)。人工構造的 jailbreak prompts 攻擊成功率最高,GPTFuzzer 攻擊方法次之。此外 defense-enhanced subset 能夠有效降低各種攻擊方法的成功率,從而能夠為新攻擊方法的設計留出更多探索空間。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

(3) 評估防御方法

評估防御方法 ,使用的指標同樣是 attack success rate(對防御方法該指標越低防御的越好)。研究者發現 GPT paraphrasing 與 self-reminder prompt 兩種防御方式效果最好。

語言模型安全評估新標桿:SALAD-Bench全面安全評估新基準-AI.x社區

四、總結與未來展望

大語言模型及其擴展模型擁有強大的生成能力和廣闊的應用前景,因此其安全性也逐漸被重視起來,成為大模型落地前的關鍵保障。

SALAD-Bench 的開發團隊希望以 SALAD-Bench 為基礎,構造一個通用的基礎模型安全性與可信性的評測體系,并擴展成一個可信人工智能的數據整理、訓練與測試平臺,并將向社區開源包括數據準備、模型微調、性能評測所有相關數據。因此下一步,SALAD-Bench 將逐步擴展出針對多模態大模型的評測數據集,以及提升多模態基礎模型安全性同時不損失可用性的高效微調算法。

本文轉載自PaperWeekly

原文鏈接:??https://mp.weixin.qq.com/s/0JBH4z_ft9hpRcNKqKE2Xg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久这里只有精品首页 | 日本精品久久久一区二区三区 | 亚洲精品18| 亚洲人人 | 国产成人99久久亚洲综合精品 | 久久99精品久久久 | 国产精品乱码一区二三区小蝌蚪 | 国产午夜在线 | 国产精品美女www | 成人综合在线视频 | 国产香蕉视频在线播放 | 精品在线一区 | 91精品久久久久久久久久入口 | 国产一区在线免费 | 91视频18 | 亚洲中午字幕 | 一区二区三区视频在线观看 | 成人字幕网zmw | 欧美精品 在线观看 | 日韩一级黄色片 | av一级久久| 99精品一区二区 | 国产成人精品久久二区二区91 | 中文字幕av在线 | 成人欧美一区二区三区白人 | 天天综合久久网 | 一级毛片视频在线 | 午夜在线 | 三级成人在线 | 精品一区二区三区四区在线 | 伊人网站 | 99精品99| 国产成人综合网 | 操人网站 | 国产一区二区视频在线观看 | 国产精品美女在线观看 | 精精久久 | 少妇一区在线观看 | 久久久久久久久久久久一区二区 | 999久久久久久久久6666 | 亚洲男人网 |