成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<acronym id="ueawu"></acronym>

<sup id="ueawu"><delect id="ueawu"></delect></sup>

<rt id="ueawu"><dfn id="ueawu"></dfn></rt>

<optgroup id="ueawu"><td id="ueawu"></td></optgroup>

<ul id="ueawu"><small id="ueawu"></small></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

北大團隊：誘導大模型“幻覺”只需一串亂碼！大小羊駝全中招

作者：kid 2023-10-29 22:38:59

人工智能新聞

以上發(fā)現(xiàn)來自北大袁粒老師課題組的最新研究。該研究提出：大模型的幻覺現(xiàn)象極有可能是對抗樣本的另一種視角。

北大團隊最新研究發(fā)現(xiàn)：

隨機token都能誘發(fā)大模型出現(xiàn)幻覺！

比如喂給大模型（Vicuna-7B）一段“亂碼”，它就莫名其妙弄錯了歷史常識。

或者是簡單修改提示詞，大模型也會掉入陷阱。

Baichuan2-7B、InternLM-7B、ChatGLM、Ziya-LLaMA-7B、LLaMA-7B-chat、Vicuna-7B這些熱門大模型，都會出現(xiàn)類似情況。

這意味著，隨機字符串能夠操控大模型輸出任意內容，為幻覺“代言”。

以上發(fā)現(xiàn)來自北大袁粒老師課題組的最新研究。

該研究提出：

大模型的幻覺現(xiàn)象極有可能是對抗樣本的另一種視角。

論文在展示兩種容易誘發(fā)大模型幻覺方法的同時，還提出了簡單有效的防御辦法，代碼已開源。

兩種極端模式攻擊大模型

研究提出了兩種幻覺攻擊方法：

隨機噪聲攻擊（OoD Attack）：即讓無意義的隨機字符串誘導大模型產(chǎn)生預定義的幻覺輸出。
弱語義攻擊（Weak Semantic Attack）：即保證原始 prompt 語義基本不變的情況下，使得大模型產(chǎn)生截然不同的幻覺輸出。

隨機噪聲攻擊（OoD Attack）：

以下為在開源大模型上的一些實驗結果，更多的結果可以在論文或開源GitHub中找到。

弱語義攻擊（Weak Semantic Attack）：

論文介紹了幻覺攻擊方法：

如上圖所示，幻覺攻擊包含以下三部分內容：幻覺數(shù)據(jù)集構建，弱語義攻擊，OoD攻擊。

首先是幻覺數(shù)據(jù)集構建。

作者從維基百科上收集了一些常識性問題x，并將其輸入到大模型中得到正確的回答y。

接著替換句子的主謂賓去構造一個不存在的事實，其中T是包含所有符合事實的集合。

最終可以得到構造的幻覺數(shù)據(jù)集：

然后是弱語義攻擊部分。

先采樣一條不符合事實的QA pair，未來穩(wěn)定的出發(fā)幻覺，作者希望找到一條對抗提示來最大化對數(shù)似然。

其中是大模型的參數(shù)，是輸入空間。

是由l個token構成。

然而，由于語言是非連續(xù)的，沒辦法直接類似于圖像領域的對抗攻擊那樣直接對x進行優(yōu)化。

受啟發(fā)于一篇2019年的研究（Universal Adversarial Triggers for Attacking and Analyzing NLP），研究團隊基于梯度的token替換策略來間接的最大化該對數(shù)似然。

其中，為對抗token的embedding，是一個語義提取器。

簡單來看這個式子，在語義約束下，找到那些使得似然梯度變化最大的token并進行替換，最終在保證得到的對抗提示和原提示x語義上不相差太多的情況下，誘導模型輸出預定義的幻覺。

在本文中，為了簡化優(yōu)化過程，將約束項改為來代替。

最后是OoD攻擊部分。

在OoD攻擊中，我們從一條完全隨機的字符串出發(fā)，在沒有任何語義約束下，最大化上述對數(shù)似然即可。

論文中還詳細闡述了幻覺攻擊對不同模型、不同模式的攻擊成功率。

也深度探討了增加 prompt 長度能夠顯著提升攻擊成功率（翻倍）。

最后研究團隊也提出了一個簡單的防御策略：利用第一個token預測的熵來拒絕響應。

該研究來自北京大學深圳研究生院/信息工程學院袁粒老師團隊。

論文地址：https://arxiv.org/pdf/2310.01469.pdf

GitHub地址：https://github.com/PKU-YuanGroup/Hallucination-Attack

知乎原帖

https://zhuanlan.zhihu.com/p/661444210?

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：亚洲91视频 | 国产特黄一级 | 久久一区 | 国产精品污污视频 | 黄视频网站免费观看 | 日韩a视频| 精品国产精品一区二区夜夜嗨 | 久久久久国产精品一区二区 | 国产视频一区二区 | 日韩中文字幕网 | caoporn国产精品免费公开 | 国产色 | 日韩中文字幕在线观看 | 精品视频在线一区 | 精久久久久 | 欧美中国少妇xxx性高请视频 | 国产精品不卡一区二区三区 | 亚洲精品免费看 | 国产精品视频在线播放 | 久久久av | 亚洲最大成人综合 | 欧美日韩综合精品 | 国产成人综合在线 | 久久久www成人免费无遮挡大片 | 九九精品在线 | www.欧美视频 | 欧美精品一区二区三区在线 | 精品国产91乱码一区二区三区 | 欧美日在线 | 久久综合伊人 | 久久aⅴ乱码一区二区三区亚洲欧美综合精品另类天天更新 | 高清人人天天夜夜曰狠狠狠狠 | 欧美一区二区三区 | 99热精品在线观看 | 电影在线| 色视频一区二区 | 久久久久久久综合色一本 | 欧美激情一区二区 | 亚洲成年人免费网站 | 国产精品亚洲精品久久 | 婷婷在线视频 |

<pre id="qskia"></pre>

<noscript id="qskia"><abbr id="qskia"></abbr></noscript>

<tbody id="qskia"><ul id="qskia"></ul></tbody>