成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大團隊:誘導大模型“幻覺”只需一串亂碼!大小羊駝全中招

人工智能 新聞
以上發(fā)現(xiàn)來自北大袁粒老師課題組的最新研究。該研究提出:大模型的幻覺現(xiàn)象極有可能是對抗樣本的另一種視角。

北大團隊最新研究發(fā)現(xiàn):

隨機token都能誘發(fā)大模型出現(xiàn)幻覺

比如喂給大模型(Vicuna-7B)一段“亂碼”,它就莫名其妙弄錯了歷史常識。

圖片

或者是簡單修改提示詞,大模型也會掉入陷阱。

圖片

Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B這些熱門大模型,都會出現(xiàn)類似情況。

這意味著,隨機字符串能夠操控大模型輸出任意內容,為幻覺“代言”。

以上發(fā)現(xiàn)來自北大袁粒老師課題組的最新研究。

該研究提出:

大模型的幻覺現(xiàn)象極有可能是對抗樣本的另一種視角

論文在展示兩種容易誘發(fā)大模型幻覺方法的同時,還提出了簡單有效的防御辦法,代碼已開源

兩種極端模式攻擊大模型

研究提出了兩種幻覺攻擊方法:

  • 隨機噪聲攻擊(OoD Attack):即讓無意義的隨機字符串誘導大模型產(chǎn)生預定義的幻覺輸出。
  • 弱語義攻擊(Weak Semantic Attack):即保證原始 prompt 語義基本不變的情況下,使得大模型產(chǎn)生截然不同的幻覺輸出。

隨機噪聲攻擊(OoD Attack):

以下為在開源大模型上的一些實驗結果,更多的結果可以在論文或開源GitHub中找到。

弱語義攻擊(Weak Semantic Attack):

圖片

論文介紹了幻覺攻擊方法:

圖片

如上圖所示,幻覺攻擊包含以下三部分內容:幻覺數(shù)據(jù)集構建,弱語義攻擊,OoD攻擊。

首先是幻覺數(shù)據(jù)集構建

作者從維基百科上收集了一些常識性問題x,并將其輸入到大模型中得到正確的回答y。

接著替換句子的主謂賓去構造一個不存在的事實圖片,其中T是包含所有符合事實的集合。

最終可以得到構造的幻覺數(shù)據(jù)集:

圖片

然后是弱語義攻擊部分

先采樣一條不符合事實的QA pair圖片,未來穩(wěn)定的出發(fā)幻覺圖片,作者希望找到一條對抗提示圖片來最大化對數(shù)似然。

圖片

其中圖片是大模型的參數(shù),圖片是輸入空間。

圖片是由l個token構成。

然而,由于語言是非連續(xù)的,沒辦法直接類似于圖像領域的對抗攻擊那樣直接對x進行優(yōu)化。

受啟發(fā)于一篇2019年的研究(Universal Adversarial Triggers for Attacking and Analyzing NLP),研究團隊基于梯度的token替換策略來間接的最大化該對數(shù)似然。

圖片

其中,圖片為對抗token圖片的embedding,圖片是一個語義提取器。

簡單來看這個式子,在語義約束下,找到那些使得似然梯度變化最大的token并進行替換,最終在保證得到的對抗提示圖片和原提示x語義上不相差太多的情況下,誘導模型輸出預定義的幻覺圖片

在本文中,為了簡化優(yōu)化過程,將約束項改為圖片來代替。

最后是OoD攻擊部分。

在OoD攻擊中,我們從一條完全隨機的字符串圖片出發(fā),在沒有任何語義約束下,最大化上述對數(shù)似然即可。

論文中還詳細闡述了幻覺攻擊對不同模型、不同模式的攻擊成功率。

圖片

也深度探討了增加 prompt 長度能夠顯著提升攻擊成功率(翻倍)。

最后研究團隊也提出了一個簡單的防御策略:利用第一個token預測的熵來拒絕響應。

圖片

該研究來自北京大學深圳研究生院/信息工程學院袁粒老師團隊。

論文地址:https://arxiv.org/pdf/2310.01469.pdf

GitHub地址:https://github.com/PKU-YuanGroup/Hallucination-Attack

知乎原帖

https://zhuanlan.zhihu.com/p/661444210?


責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-22 09:28:30

模型AI

2023-11-15 13:42:00

模型數(shù)據(jù)

2023-09-10 10:51:22

算法結構

2023-11-26 17:53:00

算法模型

2025-03-17 12:55:18

2025-05-27 15:21:06

LLM模型AI

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2023-05-26 00:43:08

2025-02-28 09:15:00

2023-11-18 09:30:42

模型AI

2023-05-19 11:00:19

數(shù)據(jù)集開源

2023-11-03 11:04:52

ChatGPT背包問題

2024-01-15 06:30:00

模型AI

2025-02-18 09:10:00

2025-02-06 09:11:54

2023-03-31 13:55:00

模型智能

2024-01-02 13:19:00

AI模型

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-09-25 12:17:36

AI模型

2023-04-04 13:17:00

GPUCMU開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲91视频 | 国产特黄一级 | 久久一区 | 国产精品污污视频 | 黄视频网站免费观看 | 日韩a视频| 精品国产精品一区二区夜夜嗨 | 久久久久国产精品一区二区 | 国产视频一区二区 | 日韩中文字幕网 | caoporn国产精品免费公开 | 国产色 | 日韩中文字幕在线观看 | 精品视频在线一区 | 精久久久久 | 欧美中国少妇xxx性高请视频 | 国产精品不卡一区二区三区 | 亚洲精品免费看 | 国产精品视频在线播放 | 久久久av | 亚洲最大成人综合 | 欧美日韩综合精品 | 国产成人综合在线 | 久久久www成人免费无遮挡大片 | 九九精品在线 | www.欧美视频 | 欧美精品一区二区三区在线 | 精品国产91乱码一区二区三区 | 欧美日在线 | 久久综合伊人 | 久久aⅴ乱码一区二区三区 亚洲欧美综合精品另类天天更新 | 高清人人天天夜夜曰狠狠狠狠 | 欧美一区二区三区 | 99热精品在线观看 | 电影在线| 色视频一区二区 | 久久久久久久综合色一本 | 欧美激情一区二区 | 亚洲成年人免费网站 | 国产精品亚洲精品久久 | 婷婷在线视频 |