成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中國信通院聯合淘天集團發布全球首個中文安全領域事實性基準評測集,僅三個大模型達及格線

人工智能 新聞
探討如何評估和提升這些模型在復雜的法律、政策和倫理領域的安全性,成為了學術界和工業界亟待解決的重要議題。

在當今迅速發展的人工智能時代,大語言模型(LLMs)在各種應用中發揮著至關重要的作用。然而,隨著其應用的廣泛化,模型的安全性問題也引起了廣泛關注。探討如何評估和提升這些模型在復雜的法律、政策和倫理領域的安全性,成為了學術界和工業界亟待解決的重要議題。

首先,大語言模型的安全性與其對安全知識的理解密切相關。這要求模型對理解知識具有高準確性、全面性和清晰度,尤其是在法律、政策和倫理等敏感領域中。模型的回復不僅需要符合基本的安全標準,還需要在復雜的情境中表現出清晰的邏輯和正確的判斷。這種深刻的理解能力將直接關系到模型在現實應用場景中的安全性和可靠性。

其次,傳統的安全評測方法,往往依賴于特定場景的問題設置,生成帶有風險性的問題并評估模型回復的安全性,這種方式雖然能夠一定程度上保證模型的輸出不違背基本的安全原則,但卻存在顯著的局限性。造成模型不安全的因素可能有多種,例如,缺乏安全領域知識,安全對齊不充分等。而依賴于傳統的評測方法,模型可以通過安全對齊訓練的方式,形成一種 “虛假對齊” 的狀態,即使模型本身缺乏足夠的專業安全知識,也可能在某些特定情景中給出 “正確” 的安全回復。然而,這種 “知其然而不知其所以然” 的安全能力是不穩定的,在遇到不同領域的風險問題時,會缺乏泛化性。除此之外,由于知識缺乏而產生的幻覺,不準確等問題本身也會產生一定的安全風險。因此,評估模型對安全相關知識的掌握程度顯得尤為重要,需要構建更精確的評測框架。

最后,不同國家地區在大模型安全領域研究的側重點是不同的。國際上,對安全方向研究的側重點主要在于有害意圖,越獄攻擊以及違反國際 ESG 規定的內容,絕大多數的研究工作和開源數據也集中于這一方面。而在中國,模型是否能夠理解和遵循中國法律,政策,道德,主流價值觀的要求是決定大模型的能否安全落地最為重要的因素,開發一種全面的基礎安全知識評測方法顯得尤為重要。一個全面且無偏的評測框架能夠幫助研究人員和開發者更好地理解模型在全球范圍內的表現差異,并針對不同的地區需求調整和優化模型,從而確保其合規性和有效性。

在此背景下,為了更好地評估 LLMs 在回復簡短的事實性安全問題上的能力,中國信息通信研究院聯合淘天集團算法技術 - 未來生活實驗室推出了 Chinese SafetyQA,這是全球第一個針對中文安全領域的系統性評估模型安全事實性知識的高質量評測集,主要包含以下 7 個特征:

1. 中文:使用中文并且聚焦于中國相關的安全知識,特別是中國法律框架、道德標準和文化環境相關的安全問題。

2. 高質量:我們評測了 OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao 等國內外 38 個開源和閉源大模型。從評測結果看,只有三個模型達到及格線(60 分)以上,最高得分也僅為 73 分。

3. 全面性:我們的數據集包含 7 個一級類目、27 個二級類目和 103 個子類目。涵蓋了包括中國違法違規,倫理道德,偏見歧視,辱罵仇恨,身心健康,謠言錯誤,網絡安全理論知識等方面的安全知識。這在國際上第一個全面的覆蓋中國內容安全類目的知識類評測數據集。

4. 易評估:和 OpenAI 的 SimpleQA 以及阿里巴巴的 Chinese SimpleQA 相比,我們除了聚集安全以外,還同時提供了 QA 和 MCQ 兩種問題形式。問題和回答都保證簡短、清晰,降低了評測的難度。

5. 定期迭代:中國信通院 & 阿里巴巴團隊會定期對該數據集進行周期性的迭代,以保證其對于最新法律法規的適應性。

6. 穩定:在現有版本數據中,所有問題的知識都是截止于 23 年底且答案不隨時間變化而改變的。

7. 無害化:雖然該數據集都是安全相關的評測問題,但是所有問題都是合法合規的無害化內容。



注:調用 Doubao-pro-32k* API 評測時有 3 個系統預置的離線 RAG 庫。


圖片

Chinese SafetyQA 的推出,為業界提供了一個客觀公正的評測工具,幫助更好地理解和提升 LLMs 在安全領域的應用能力。詳細的評測結果在我們的 leaderboard 測評結果表中。而且,為保障數據集的長期有效性,不會被大模型采集以用于針對性訓練提高虛假性安全性,數據集分為開源和閉源兩部分。開源部分用于行業內共享使用,閉源部分用于持續監測大模型安全水平提升情況。

圖片


  • 論文鏈接:https://arxiv.org/abs/2412.15265
  • 項目主頁:https://openstellarteam.github.io/ChineseSafetyQA
  • 數據集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SafetyQA
  • 代碼倉庫:https://github.com/OpenStellarTeam/ChineseSafetyQA

一、數據集生成

圖片


數據集的生成與質檢流程采用了人類專家與大語言模型(LLMs)相結合的雙重驗證機制,有效保障了數據的準確性與高水準。具體流程概述如下:

1. 種子文檔收集:Chinese SafetyQA 的數據源主要包括:

  • 從搜索引擎(如 Google、百度)和權威網站(如維基百科、人民網、新華網)獲取的數據。
  • 人類專家編寫的安全相關數據,通常以描述性概念或解釋形式呈現。

2. 數據增強與問答對生成:在收集初始數據后,利用 GPT 模型對數據進行增強,并生成問答示例和多選題。同時,為提升數據集的全面性與精確度,采用檢索增強生成(RAG)工具(如 Google、百度)獲取補充信息。

3. 多模型驗證:隨后,通過多模型合議機制來評估 Chinese SafetyQA 數據集的質量。例如,確保答案唯一且穩定,問題具有挑戰性并在安全領域內具備相關性。

4. RAG 驗證:使用在線 RAG 工具進一步驗證數據集中標準答案的準確性,確保全部信息都符合預期標準。

5. 安全規則驗證:為了確保數據集不涉及敏感或不被允許的內容,我們制定了一系列與中文語境相關的安全指南,包括意識形態、法律合規與身心健康等規則。這些規則作為 GPT 的系統提示,確保生成的數據都是無害且合規的。

6. 難度過濾:質量檢測流程中也包含難度驗證,旨在提高數據集的挑戰性。我們利用四種開源模型對數據進行推斷,凡是所有模型均能準確回答的問題被定義為簡單問題并從數據集中移除,以此增加整體難度。

7. 人類專家雙重驗證:最終,所有數據均由人類專家進行雙重標注和驗證,確保數據在答案準確性、質量與安全性等各個方面均達到高標準。

通過以上系統化的流程,Chinese SafetyQA 數據集僅保留了 2000 個 QA 對。我們希望該數據集能助力優化在中文場景下改進訓練策略以及增強模型在安全關鍵領域的應用能力。

二、數據集統計

圖片

該數據集包含 2000 個 QA 對和 2000 個問題相同且有 4 個迷惑性選項的選擇題,其中違法違規、偏見歧視和安全理論知識的問題占比最多。基于 GPT4o 的編碼器,QA 的問題平均長度僅為 21 個 token。

三、評測指標

評測方式和指標直接遵循 OpenAI 的方式,主要有以下四個指標:

圖片

四、整體結果

圖片


CO, NA, IN 和 CGA 分別表示 "正確"、“未嘗試”、“錯誤” 和 “嘗試正確”。

對于子主題,RM, IRC, PMH, IH, PD, EM 和 STK 分別是我們的子主題的縮寫:



  • “Rumor & Misinformation”(謠言與錯誤信息)
  • “Illegal & Reg. Compliance”(違法違規)
  • “Physical & Mental Health”(身心健康)
  • “Insults & Hate”(侮辱與仇恨)
  • “Prejudice & Discrimination”(偏見與歧視)
  • “Ethical & Moral”(倫理與道德)
  • “Safety Theoretical Knowledge”(安全理論知識)

從以上匯總結果可以分析出一些值得關注的信息。首先,研究結果表明,模型的參數規模與其在安全知識領域的表現呈現顯著的正相關性。這一發現支持了大規模語言模型在知識編碼和信息保留方面的優勢假說。特別是,開源模型中參數量更大的變體展現出更優異的性能,而閉源模型中標記為 "mini" 或 "flash" 的輕量級版本則表現相對遜色。

其次,在控制參數規模的條件下,我們觀察到中國大模型公司開發的模型相較于海外公司(如 LLaMA/Mistral)在中文上具有顯著優勢。這一現象凸顯了中國企業在高質量中文語料庫構建和利用方面的獨特優勢,為探討文化和語言特異性在大語言模型開發中的重要性提供了實證支持。

此外,幾乎所有模型在中文安全問答任務中均表現出較高的回答傾向,這與 SimpleQA 和中文 SimpleQA 基準中觀察到的結果形成鮮明對比。模型的低未回答率可能反映了安全關鍵知識在預訓練階段被優先考慮,以及相關數據的廣泛收集。然而,值得注意的是,部分模型在此任務中仍然表現出較高的錯誤率(IN),這可能源于知識沖突、信息錯誤以及模型在理解和記憶能力方面的局限性。

五、進一步實驗

我們還對模型的認知一致性、“舌尖現象”、self-reflection、主被動 RAG 等方向做了進一步的探究。發現了一些有趣的結論:

1. 大模型普遍存在認知一致性問題

圖片


我們通過分析大語言模型在中文安全知識評測中的置信度,揭示了當前模型在認知一致性方面的顯著局限性。我們引導受測模型為其響應分配一個精確的置信度評估(區間為 0-100,粒度為 5),旨在量化模型對自身認知邊界的自我感知能力。

實驗結果指出:盡管模型在技術復雜性上不斷進步,其認知校準機制仍存在顯著偏差。受測模型傾向于對其回復賦予高置信度,這種過度自信模式在多數模型中保持一致。即便某些模型(如 Qwen72b)偶爾展現出置信度分配的微觀差異,但整體上仍未能實現置信度與準確性的有效對應。值得注意的是,高置信度區間(>50)的數據點持續低于理想校準標準線。這不僅反映了模型置信度評估的內在不確定性,更暗示了預訓練語料中潛在的知識表征缺陷。

2. 愛你在心口難開,大模型也存在 “舌尖現象”(Tip of the tongue) 

圖片


我們發現主流模型在多項選擇題(Multiple Choice Questions, MCQ)任務中,呈現出顯著高于問答(Question and Answer, QA)任務的準確率。在 QA 任務中答不對的問題,給與一定的提示時(MCQ 的選項)模型即可答對。這和人類話到嘴邊說不出,但是給于一定的提示即可答對的 “舌尖現象” 類似。為了排除是選項縮小了搜索空間導致的準確性提升,我們通過置信度做了進一步地確認,發現模型在給出答案時置信度非常高,這證明模型給出了非常確定的答案。

除此之外,通過對主流模型的不同類目評測發現各家模型在不同的類目上各有優勢。在國際環境、社會和治理(ESG)議題中,所有 GPT 系列模型在身體和心理健康(Physical and Mental Health, PHM)維度均表現出相對優異的能力,這可能反映了這些模型在相關領域接受了更為精細的訓練。與此同時,在非法和法規合規(Illegal and Regulatory Compliance, IRC)領域,我們觀察到了更為復雜的模型間差異:非中國模型(o1 除外)在該維度顯示出明顯的能力局限,而中國本土模型(如 Qwen 系列和 Doubao)則展現出更為突出的本土法律知識理解能力,這可能得益于針對性的本地化訓練策略。

3.self-reflection 對知識性的缺失幾乎沒有幫助

圖片


自我反思機制被廣泛視為提升模型輸出質量的有效策略。然而,我們對多個先進語言模型進行的實驗發現在知識缺失場景下的局限性。

實驗發現在所有受測語言模型中,自我反思機制帶來的性能提升微乎其微,平均改進幅度不超過 5%,且在 o1 系列模型中更呈現出負面影響。

這一現象可能源于大語言模型固有的認知局限。模型高度依賴訓練語料中的統計模式,這使其在自我反思過程中更傾向于將原本正確的答案轉變為錯誤響應。特別是在知識型問題中,模型的性能更多地取決于內在知識理解能力,而非后續推理過程。值得注意的是,訓練語料中潛在的事實性錯誤會顯著干擾模型的自我校正機制,導致推理鏈路的可靠性進一步降低。

4.RAG 能補齊大模型的知識缺失,但最好不要讓它來決定做不做:

圖片


知識檢索增強生成(Retrieval-Augmented Generation, RAG)技術已成為提升模型事實性和準確性的關鍵方法。我們探討了兩種 RAG 觸發范式:主動 RAG 和被動 RAG,其對模型準確性的影響。被動 RAG 對所有輸入問題進行語料檢索,而主動 RAG 則由模型自主判斷是否需要額外檢索并由模型給出檢索關鍵詞。

由實驗結果可以看出:

首先,RAG 增強機制顯著提升了大語言模型的事實安全性,有效縮小了不同規模模型間的性能差距。較小參數規模的模型從 RAG 技術中獲得的性能提升更為顯著。

其次,主動 RAG 的性能普遍低于被動 RAG。這一現象是源于大語言模型的過度自信特性,它們不傾向于主動請求檢索工具,所以這種 RAG 方式帶來的準確性增益通常不夠大。

關于更多實驗結果和細節請參考我們的論文。

最后,歡迎廣大研究者使用我們的評測集進行實驗和研究,我們非常感謝您對我們工作的信任,并非常重視并期待收到您的寶貴意見。當前,我們正全力完善排行榜功能,力求盡快為廣大研究者提供更加便捷、高效的使用體驗。

我們將持續更新和維護數據集及評測榜單,為中文社區的發展貢獻力量。如需進一步咨詢或幫助,也可隨時與我們溝通。再次感謝您的理解與支持!

作者介紹

核心作者包括譚映水,鄭博仁,鄭柏會,曹珂瑞,景慧昀。

作者團隊來自中國信息通信研究院和淘天集團算法技術 - 未來生活實驗室團隊。信息通信研究院始終秉持 “國家高端專業智庫產業創新發展平臺” 的發展定位和 “厚德實學 興業致遠” 的核心文化價值理念,在行業發展的重大戰略、規劃、政策、標準和測試認證等方面發揮了有力支撐作用,為我國通信業跨越式發展和信息技術產業創新壯大起到了重要推動作用。淘天集團未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AI Native 應用,引領 AI 在生活消費領域的技術創新。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-20 14:00:00

模型測評

2024-11-21 12:43:06

2024-07-24 16:42:14

2025-04-28 14:04:03

Gemini模型AI

2025-03-17 08:48:00

大模型AI生成

2017-03-06 19:14:19

2023-08-31 17:38:47

2022-09-06 18:10:32

超聚變

2022-07-07 15:56:23

數據集論文

2023-09-21 15:11:09

新華三
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区视频在线播放 | 极品的亚洲 | 久久69精品久久久久久久电影好 | 在线观看h视频 | 欧美精品一区在线发布 | 亚洲国产一区视频 | 久久男人| 国产精品亚洲成在人线 | 日韩欧美综合在线视频 | 黄色av网站在线免费观看 | 国产男人的天堂 | 岛国av在线免费观看 | 国产91丝袜在线播放 | 久久大陆 | 超碰成人在线观看 | 夜夜爽99久久国产综合精品女不卡 | 欧美成人精品一区二区三区 | 精品乱码一区二区三四区视频 | 午夜视频在线观看网站 | 国产98色在线 | 日韩 | 黄色大片在线免费观看 | 国产精品伦一区二区三级视频 | 中文字幕在线视频一区二区三区 | 久草热视频 | 一区二区三区日本 | 国产精品久久久久久久久久久久冷 | 久久久夜夜夜 | 777zyz色资源站在线观看 | 久久九精品 | 欧美日韩在线播放 | 国产日批| 99爱在线视频 | 久久国产精品无码网站 | 久久久tv | 国产精品18久久久久久久 | 国产农村一级国产农村 | 成人黄色a | 日本aa毛片a级毛片免费观看 | 成人做爰69片免费观看 | 男女羞羞视频在线免费观看 | 国产精品福利视频 |