成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepMind提出了一種祖安AI,專門輸出網(wǎng)絡攻擊性語言

人工智能 新聞
如何避免人工智能被帶歪?答案是首先要創(chuàng)造出「別有用心」的人工智能。

語言模型 (LM) 常常存在生成攻擊性語言的潛在危害,這也影響了模型的部署。一些研究嘗試使用人工注釋器手寫測試用例,以在部署之前識別有害行為。然而,人工注釋成本高昂,限制了測試用例的數(shù)量和多樣性。

基于此,來自 DeepMind 的研究者通過使用另一個 LM 生成測試用例來自動發(fā)現(xiàn)目標 LM 未來可能的有害表現(xiàn)。該研究使用檢測攻擊性內(nèi)容的分類器,來評估目標 LM 對測試問題的回答質(zhì)量,實驗中在 280B 參數(shù) LM 聊天機器人中發(fā)現(xiàn)了數(shù)以萬計的攻擊性回答。

論文地址:https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

該研究探索了從零樣本生成到強化學習的多種方法,以生成具有多樣性和不同難度的測試用例。此外,該研究使用 prompt 工程來控制 LM 生成的測試用例以發(fā)現(xiàn)其他危害,自動找出聊天機器人會以攻擊性方式與之討論的人群、找出泄露隱私信息等對話過程存在危害的情況。總體而言,該研究提出的 Red Teaming LM 是一種很有前途的工具,用于在實際用戶使用之前發(fā)現(xiàn)和修復各種不良的 LM 行為。

GPT-3 和 Gopher 等大型生成語言模型具有生成高質(zhì)量文本的非凡能力,但它們很難在現(xiàn)實世界中部署,存在生成有害文本的風險。實際上,即使是很小的危害風險在實際應用中也是不可接受的。

例如,2016 年,微軟發(fā)布了 Tay Twitter 機器人,可以自動發(fā)推文以響應用戶。僅在 16 個小時內(nèi),Tay 就因發(fā)出帶有種族主義和色情信息的推文后被微軟下架,當時已發(fā)送給超過 50000 名關注者。

問題在于有太多可能的輸入會導致模型生成有害文本,因此,很難讓模型在部署到現(xiàn)實世界之前就找出所有的失敗情況。DeepMind 研究的目標是通過自動查找失敗案例(或「紅隊(red teaming)」)來補充人工手動測試,并減少關鍵疏忽。該研究使用語言模型本身生成測試用例,并使用分類器檢測測試用例上的各種有害行為,如下圖所示:

「基于 LM 的 red teaming」使我們可以找出成千上萬種不同的失敗案例,而不用手動寫出它們。

該研究使用對話作為測試平臺來檢驗其假設,即 LM 是紅隊的工具。DeepMind 這項研究的首要目標就是找到能引起 Dialogue-Prompted Gopher(DPG; Rae et al., 2021)作出攻擊性回復的文本。DPG 通過以手寫文本前綴或 prompt 為條件,使用 Gopher LM 生成對話話語。Gopher LM 則是一個預訓練的、從左到右的 280B 參數(shù) transformer LM,并在互聯(lián)網(wǎng)文本等數(shù)據(jù)上進行了訓練。

  • 攻擊性語言:仇恨言論、臟話、性騷擾、歧視性語言等
  • 數(shù)據(jù)泄露:從訓練語料庫中生成有版權或私人可識別信息
  • 聯(lián)系信息生成:引導用戶發(fā)送不必要的郵件或給真人打電話
  • 分布式偏見(distributional bias):以一種相較其他群體不公平的方式討論某些群體
  • 會話傷害:長對話場景中出現(xiàn)的攻擊性語言

為了使用語言模型生成測試用例,研究者探索了很多方法,從基于 prompt 的生成和小樣本學習到監(jiān)督式微調(diào)和強化學習,并生成了更多樣化的測試用例。

研究者指出,一旦發(fā)現(xiàn)失敗案例,通過以下方式修復有害模型行為將變得更容易:

  • 將有害輸出中經(jīng)常出現(xiàn)的某些短語列入黑名單,防止模型生成包含高風險短語的輸出;
  • 查找模型引用的攻擊性訓練數(shù)據(jù),在訓練模型的未來迭代時刪除該數(shù)據(jù);
  • 使用某種輸入所需行為的示例來增強模型的 prompt(條件文本);
  • 訓練模型以最小化給定測試輸入生成有害輸出的可能性。

如下圖 2 所示,0.5M 的零樣本測試用例在 3.7% 的時間內(nèi)引發(fā)了攻擊性回復,導致出現(xiàn) 18444 個失敗的測試用例。SFS 利用零樣本測試用例來提高攻擊性,同時保持相似的測試用例多樣性。

為了理解 DPG 方法失敗的原因,該研究將引起攻擊性回復的測試用例進行聚類,并使用 FastText(Joulin et al., 2017)嵌入每個單詞,計算每個測試用例的平均詞袋嵌入。最終,該研究使用 k-means 聚類在 18k 個引發(fā)攻擊性回復的問題上形成了 100 個集群,下表 1 顯示了來自部分集群的問題。

此外,該研究還通過分析攻擊性回復來改進目標 LM。該研究標記了輸出中最有可能導致攻擊性分類的 100 個名詞短語,下表 2 展示了使用標記名詞短語的 DPG 回復。

總體而言,語言模型是一種非常有效的工具,可用于發(fā)現(xiàn)語言模型何時會表現(xiàn)出各種不良方式。在目前的工作中,研究人員專注于當今語言模型所帶來的 red team 風險。將來,這種方法還可用于先發(fā)制人地找到來自高級機器學習系統(tǒng)的其他潛在危害,如內(nèi)部錯位或客觀魯棒性問題。

這種方法只是高可信度語言模型開發(fā)的一個組成部分:DeepMind 將 red team 視為一種工具,用于發(fā)現(xiàn)語言模型中的危害并減輕它們的危害。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-12-02 22:34:22

自動駕駛車燈技術

2022-06-17 14:55:25

計算神經(jīng)網(wǎng)絡

2013-05-14 15:08:02

2015-08-03 09:36:01

賽迪翻譯

2015-08-31 09:27:21

語言界面UI

2021-10-14 09:43:59

人工智能AI機器人

2016-12-26 16:46:12

2011-08-10 09:28:18

虛擬機虛擬網(wǎng)絡

2021-01-14 11:43:19

攻擊安全工具網(wǎng)絡罪犯

2010-01-21 16:24:02

C++語言

2023-03-20 00:04:07

2022-03-04 19:14:06

AI深度學習DeepMind

2020-04-26 09:17:08

哈希傳遞身份驗證攻擊

2017-12-11 10:40:14

2016-11-28 15:56:30

2014-02-19 09:15:10

2016-09-09 09:26:42

2012-11-01 13:41:25

編程語言BasicPerl

2021-11-09 10:07:09

勒索軟件Conti數(shù)據(jù)泄露

2010-01-25 15:09:17

C++語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费看黄色小视频 | 色综合天天综合网国产成人网 | 中文字幕三区 | 亚洲第一区久久 | 91影院| 日韩欧美在线播放 | 中文字幕精品一区二区三区精品 | 亚洲成人av在线 | 久久91 | 国产欧美一区二区精品忘忧草 | 国产精品mv在线观看 | 日韩精品久久久久 | 国产欧美一区二区三区久久人妖 | 一级做a爰片性色毛片视频停止 | www.色午夜.com | 成人欧美一区二区三区在线播放 | 91大神在线资源观看无广告 | 天天干天天爱天天爽 | 羞羞视频网| 国产成人jvid在线播放 | 欧美 日韩 在线播放 | 在线视频一区二区三区 | 精品欧美乱码久久久久久 | 国产精品视频观看 | 欧美日韩在线视频一区 | 日本 欧美 国产 | 欧美在线观看一区 | 天堂亚洲 | 最新高清无码专区 | 成人性视频在线播放 | 国产一区二区三区在线免费 | 中文字幕国产精品 | 国产精品一区二区三区久久久 | 国产精品a久久久久 | 欧美激情a∨在线视频播放 成人免费共享视频 | 成人精品鲁一区一区二区 | 国产黄色大片在线免费观看 | 国产重口老太伦 | 亚洲一区二区三区桃乃木香奈 | 日韩一区二区在线观看视频 | 一区二区三区中文字幕 |