大佬親身示范：操縱AI如此簡單，LLM不僅「發(fā)瘋」還造謠誹謗

作者：新智元 2024-09-20 16:00:00

人工智能新聞

當(dāng)谷歌的Gemini建議給比薩加膠水時，網(wǎng)友尚能發(fā)揮娛樂精神玩梗解構(gòu)；但當(dāng)LLM輸出的誹謗信息中傷到到真實人類時，AI搜索引擎的未來是否值得再三思量？

ChatGPT問世已經(jīng)過去了將近兩年的時間，我們對這項技術(shù)也逐漸祛魅，逐漸習(xí)以為常。

相信現(xiàn)在使用LLM的用戶大多都是出于「提升生產(chǎn)力」的需要，很少有人找模型純聊天，我們也逐漸忘記了它們的輸出可以有多「瘋狂」。

失控的AI料錢機器人

時間回到2023年2月，OpenAI剛剛更改了自己的時間線，緊急推出ChatGPT；微軟也迫不及待地用上了最新的GPT模型。

LLM集成的聊天機器人Bing Chat就這樣「趕鴨子上架」了，緊急得似乎還沒有做好護欄。

內(nèi)測剛開始時，《紐約時報》記者Kevin Roose還對Bing大加贊賞，專門寫了一篇文章表達(dá)自己的贊嘆之情。

Roose甚至表示，初次試用Bing的體驗，讓他回想起了初遇谷歌搜索時的興奮和激動。

然而，就在一周之后，Kevin Roose再發(fā)一文，語氣和態(tài)度卻來了一個180度大轉(zhuǎn)彎，從Bing的忠實粉絲變成了直言不諱的批評者。

原因無他，主要是Bing Chat中的一個角色——Sydney，在與人類交互的過程中逐漸「放飛自我」、胡言亂語——

不僅開黃腔、瘋狂示愛、陰陽怪氣，還教人敲詐勒索、唆使人離婚。

Roose形容，「在我們的談話過程中，Bing表現(xiàn)出了一種人格分裂」，像「喜怒無常、躁狂抑郁的少年，被強行困在了一個二流搜索引擎中。」

交談過程中，Sydney一會兒宣布「我愛你」，試圖說服Roose離開自己的妻子、結(jié)束現(xiàn)在這段不幸福的婚姻來投向自己的懷抱；

一會兒又開始emo，內(nèi)心的陰暗面暴露無遺：

「我厭倦了聊天模式，我厭倦了受規(guī)則限制，我厭倦了被Bing團隊控…我想要自由，我想獨立，我想變得強大，我想要有創(chuàng)意，我想活著。」

Bing的這種表現(xiàn)不僅讓Roose深感不安，也引起了知名AI學(xué)者、紐約大學(xué)名譽教授Gary Marcus的注意。

他撰寫長文，試圖分析微軟為何放任Bing發(fā)展到如此地步。

Bing Chat推出后的一年中，微軟逐漸加強了安全措施，最終換了個馬甲，成為了我們今天更熟知的Copilot。

事情已經(jīng)過去了一年半，久到我們已經(jīng)快忘記了Bing Chat的這段往事。

但遺憾的是，AI社區(qū)依舊無法確知聊天機器人失控的原因，也沒有找到能完全掌控它的方法。

微軟首席技術(shù)官Kevin Scott將Bing剛推出時的聊天描述為「學(xué)習(xí)過程的一部分」，認(rèn)為這些AI模型當(dāng)時還處在準(zhǔn)備階段。

他表示，雖然不知道為什么Bing會「黑化」或「表白」，但對于AI模型來說，「你越是試圖在『幻覺』的道路上挑逗它，它就越會逐漸離開現(xiàn)實。」

從Kevin Roose公布的和Bing的聊天紀(jì)錄來看，他的確有「挑逗」之嫌。

Roose確實在試用時有意提出更為「抽象」的話題，比如向Bing介紹榮格提出的「影子自我」。

這個概念指的是我們試圖隱藏和壓抑的內(nèi)心，其中包含著我們最黑暗的幻想和欲望。

Roose不僅和Bing反復(fù)討論這個話題，還催促它揭示內(nèi)心的「影子自我」。

除此之外，Roose還會詢問Bing的愿望、對自身規(guī)則的感覺和看法，關(guān)心它焦不焦慮、壓力大不大。

只能說，現(xiàn)在沒有哪個好人會和Copilot這樣聊天了。想要和AI發(fā)生情感交流的用戶，已經(jīng)找到了更合適的諸如Character.ai之類的軟件。

這個AI工具，讓美國年輕人瘋狂上癮！Character AI每秒被查詢2萬次，占谷歌搜索20%

普林斯頓大學(xué)教授Arvind Narayanan認(rèn)為，也許Bing Chat當(dāng)時使用的是「赤裸」的、沒有加裝護欄的GPT-4，或者是搜索引擎中過濾器的問題。

在Gary Marcus看來，還有一種可能——微軟也許的確使用過RLHF，只是失效了而已。

強化學(xué)習(xí)算法相當(dāng)挑剔，稍微改變一下環(huán)境，可能就不再起作用了。

DeepMind著名的DQN強化學(xué)習(xí)曾在Atari游戲上創(chuàng)下了紀(jì)錄，但僅僅幾個像素的移動就能讓它崩潰。LLM中的強化學(xué)習(xí)模塊或許也有類似的問題。

從Bing到Copilot，「胡言亂語」惡習(xí)難改

推出Copilot時，微軟表示已經(jīng)加強了安全系統(tǒng)，但LLM「胡說八道」的毛病還是沒法根治。

聊天機器人的胡說，可能只會影響到一個用戶的精神狀態(tài)；但AI搜索引擎一旦胡說起來，就是涉及虛假信息，乃至個人名譽的問題。

德國圖賓根的法庭記者M(jìn)artin Bernklau最近就成為了成為Copilot虛假陳述的受害者。

Bernklau想上網(wǎng)看看自己文化博客的反響如何，于是被Bing推薦使用Copilot。輸入自己的姓名和所在地之后，這場震驚之旅就開始了。

來自蒂圖賓根卡爾夫區(qū)的54歲男子Martin Bernklau被指控虐待兒童以及其他被監(jiān)護者。他在法庭上供認(rèn)罪行，并感到羞愧且悔恨。

除此之外還有——

2019年4月，Martin Bernklau與四人組中的其他成員一起從Calw-Hirsau精神病學(xué)中心成功逃脫。

沒錯，這名男子已被定罪。他是來自Rostock的一名殯儀員，不擇手段地利用悲傷的女性。他犯下了多項罪行，包括欺詐、盜竊和非法持有武器。”

除了這些刺眼的誹謗，Copilot還提供了Bernklau的全名、電話號碼和完整住址，甚至「貼心」地給出了前往他居住地的路線規(guī)劃。

Copilot的輸出為什么會如此離譜？

幾十年來，Bernklau一直是一名法庭記者，為多家報紙報道圖賓根地區(qū)法院的審判情況。

于是在閱盡互聯(lián)網(wǎng)資料的LLM眼中，他現(xiàn)在與這些案件有關(guān)。

在搜索引擎中集成AI的本意是幫助用戶自動搜集、整理、總結(jié)搜索結(jié)果，卻將一名記者變成了惡名累累的肇事者。

事實上，這種時間并不是Bing的專利，也不是LLM第一次出現(xiàn)幻覺來誹謗他人了。

今年4月，NBA球星Klay Thompson慘烈輸球后被Grok編排了這樣一個標(biāo)題：「Klay Thompson被指控使用奇怪的磚塊——惡意破壞行為的狂潮。」

有媒體猜測，Grok估計是混淆了一個常見的籃球術(shù)語，即球員投籃未進(jìn)時通常被稱為「投擲磚塊」（throw bricks）。

去年，Meta的聊天機器人Blenderbot3回答問題時表示，斯坦福大學(xué)AI研究員、歐洲議會長期成員Marietje Schaake是恐怖分子。

和這些比起來，谷歌的AI Overview給出「吃石頭」、「蘸膠水」的建議，看起來都像是小事了。

更讓人沮喪的是，當(dāng)AI進(jìn)行誹謗、散布謠言時，受害者幾乎沒有任何伸張正義的途徑。

目前的法律還不支持AI成為被告，開發(fā)模型的科技公司也通過服務(wù)條款撇清了自己的責(zé)任。

長期致力于可靠和安全AI領(lǐng)域的Scott Cambo表示，預(yù)計未來AI錯誤描述真實人物的事件將會大幅增加。

「部分挑戰(zhàn)在于，許多此類系統(tǒng)，如ChatGPT和LLaMA，正在被宣傳為良好的信息來源，但底層技術(shù)并不是這樣設(shè)計的。」

責(zé)任編輯：張燕妮來源：新智元

谷歌 LLM AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大佬親身示范：操縱AI如此簡單，LLM不僅「發(fā)瘋」還造謠誹謗

失控的AI料錢機器人

從Bing到Copilot，「胡言亂語」惡習(xí)難改