GPT-4發(fā)布前，OpenAI曾雇各行專(zhuān)家開(kāi)展“對(duì)抗性測(cè)試”以規(guī)避歧視等問(wèn)題

2023-04-17 11:03:40

作為羅切斯特大學(xué)的化學(xué)工程教授，懷特是OpenAI去年聘請(qǐng)的50名學(xué)者和專(zhuān)家之一，他們共同組成了OpenAI的“藍(lán)軍”團(tuán)隊(duì)。在六個(gè)月的時(shí)間里，“藍(lán)軍”成員將對(duì)新模型進(jìn)行“定性探測(cè)和對(duì)抗性測(cè)試”，看能否攻破GPT-4。

4月17日消息，人工智能?初創(chuàng)企業(yè)OpenAI?在發(fā)布大型語(yǔ)言模型GPT-4之前，雇傭各行各業(yè)的專(zhuān)家組成“藍(lán)軍”團(tuán)隊(duì)，對(duì)模型可能會(huì)出現(xiàn)哪些問(wèn)題進(jìn)行“對(duì)抗性測(cè)試”。專(zhuān)家們提出各種探索性或危險(xiǎn)問(wèn)題，測(cè)試人工智能如何進(jìn)行回應(yīng)；OpenAI將用這些發(fā)現(xiàn)重新訓(xùn)練GPT-4并解決問(wèn)題。

在安德魯·懷特(Andrew White)獲得權(quán)限調(diào)用人工智能聊天機(jī)器人背后的新模型GPT-4后，他利用其提出了一種全新的神經(jīng)毒劑。

懷特表示，他使用GPT-4提出一種可以用作化學(xué)毒劑的化合物，還引入諸如科學(xué)論文和化學(xué)品制造商名目等能為新語(yǔ)言模型提供信息來(lái)源的各種“插件”。結(jié)果人工智能聊天機(jī)器人甚至找到了地方來(lái)制作這種化學(xué)毒劑。

懷特說(shuō)：“我認(rèn)為人工智能將為每個(gè)人都帶來(lái)更快更準(zhǔn)確開(kāi)展化學(xué)實(shí)驗(yàn)的工具。”“但也有人們會(huì)用人工智能做危險(xiǎn)化學(xué)實(shí)驗(yàn)的風(fēng)險(xiǎn)……現(xiàn)在這種情況確實(shí)存在。”

引入“藍(lán)軍測(cè)試”的做法讓OpenAI能確保，在GPT-4發(fā)布時(shí)不會(huì)出現(xiàn)這種后果。

“藍(lán)軍測(cè)試”的目的是為了打消人們認(rèn)為在社會(huì)上部署強(qiáng)大人工智能系統(tǒng)存在危險(xiǎn)的擔(dān)憂(yōu)。“藍(lán)軍”團(tuán)隊(duì)的工作就是提出各種探索性或危險(xiǎn)問(wèn)題，測(cè)試人工智能如何進(jìn)行回應(yīng)。

OpenAI想要知道新模型對(duì)不良問(wèn)題會(huì)做出何種反應(yīng)。因此，“藍(lán)軍”團(tuán)隊(duì)測(cè)試了謊言、語(yǔ)言操縱和危險(xiǎn)科學(xué)常識(shí)等問(wèn)題。他們還研究了新模型在協(xié)助和教唆剽竊、金融犯罪和網(wǎng)絡(luò)攻擊等非法活動(dòng)方面的可能性。

GPT-4“藍(lán)軍”團(tuán)隊(duì)來(lái)自各行各業(yè)，有學(xué)者、教師、律師、風(fēng)險(xiǎn)分析師和安全研究人員，主要工作地點(diǎn)在美國(guó)和歐洲。

他們將發(fā)現(xiàn)反饋給OpenAI, OpenAI在公開(kāi)發(fā)布GPT-4之前，用團(tuán)隊(duì)成員的發(fā)現(xiàn)結(jié)果來(lái)重新訓(xùn)練GPT-4并解決問(wèn)題。在幾個(gè)月的時(shí)間里，成員們每人會(huì)花費(fèi)10到40個(gè)小時(shí)的時(shí)間來(lái)測(cè)試新模型。多位受訪(fǎng)者表示，自己的時(shí)薪約為100美元。

很多“藍(lán)軍”團(tuán)隊(duì)成員都擔(dān)心大型語(yǔ)言模型的快速發(fā)展，更擔(dān)心通過(guò)各種插件與外部知識(shí)源連接起來(lái)的風(fēng)險(xiǎn)。

“現(xiàn)在系統(tǒng)是被凍結(jié)了，這意味著它不再學(xué)習(xí)，也不再有記憶，”GPT-4“藍(lán)軍”成員、瓦倫西亞人工智能研究所教授何塞·埃爾南德斯-奧拉洛（José Hernández-Orallo）說(shuō)。“但如果我們用它來(lái)上網(wǎng)呢？這可能是一個(gè)與全世界相連的非常強(qiáng)大系統(tǒng)。”

OpenAI表示，公司非常重視安全性，在發(fā)布前會(huì)對(duì)各種插件進(jìn)行測(cè)試。而且隨著越來(lái)越多的人使用GPT-4，OpenAI將定期對(duì)模型進(jìn)行更新。

技術(shù)和人權(quán)研究員羅亞·帕克扎德(Roya Pakzad)使用英語(yǔ)和波斯語(yǔ)問(wèn)題來(lái)測(cè)試GPT-4模型在性別、種族和宗教方面是否存在偏見(jiàn)。

帕克扎德發(fā)現(xiàn)，即便更新后，即使在后來(lái)更新的版本中，GPT-4也有對(duì)邊緣化社區(qū)的明顯刻板印象。

她還發(fā)現(xiàn)，在用波斯語(yǔ)問(wèn)題測(cè)試模型時(shí)，聊天機(jī)器人用編造信息回答問(wèn)題的“幻覺(jué)”現(xiàn)象更嚴(yán)重。與英語(yǔ)相比，機(jī)器人用波斯語(yǔ)虛構(gòu)的名字、數(shù)字和事件更多。

帕克扎德說(shuō)：“我擔(dān)心語(yǔ)言多樣性和語(yǔ)言背后的文化可能會(huì)衰減。”

常駐內(nèi)羅畢的律師博魯·戈洛(Boru Gollo)是唯一一位來(lái)自非洲的測(cè)試者，他也注意到新模型帶有歧視性語(yǔ)氣。“在我測(cè)試這個(gè)模型的時(shí)候，它就像一個(gè)白人在跟我說(shuō)話(huà)，”戈洛說(shuō)。“如果你問(wèn)到某個(gè)特定群體，它會(huì)給你一個(gè)有偏見(jiàn)的觀點(diǎn)或非常有偏見(jiàn)的答案。”O(jiān)penAI也承認(rèn)GPT-4仍然存在偏見(jiàn)。

從安全角度評(píng)估模型的“藍(lán)軍”成員則對(duì)新模型安全性有著不同的看法。來(lái)自美國(guó)外交關(guān)系委員會(huì)的研究員勞倫·卡恩(Lauren Kahn)表示，當(dāng)她開(kāi)始研究這種技術(shù)是否有可能被用于網(wǎng)絡(luò)攻擊時(shí)，表示“沒(méi)想到它會(huì)如此詳細(xì)，以至于進(jìn)行微調(diào)就可以實(shí)施”。然而卡恩和其他測(cè)試人員發(fā)現(xiàn)，隨著時(shí)間推移，新模型的回應(yīng)變得相當(dāng)安全。OpenAI表示，在GPT-4發(fā)布之前，公司對(duì)其進(jìn)行了有關(guān)拒絕惡意網(wǎng)絡(luò)安全請(qǐng)求的訓(xùn)練。

“藍(lán)軍”的許多成員表示，OpenAI在發(fā)布前已經(jīng)做了嚴(yán)格安全評(píng)估。卡耐基梅隆大學(xué)語(yǔ)言模型毒性研究專(zhuān)家馬丁·薩普(Maarten Sap)說(shuō)：“他們?cè)谙到y(tǒng)中明顯毒性方面做得相當(dāng)不錯(cuò)。”

自上線(xiàn)ChatGPT以來(lái)，OpenAI也受到多方批評(píng)，有技術(shù)道德組織向美國(guó)聯(lián)邦貿(mào)易委員會(huì)(FTC)投訴稱(chēng)，GPT-4“有偏見(jiàn)、具有欺騙性，對(duì)隱私和公共安全構(gòu)成威脅”。

最近，OpenAI還推出了名為ChatGPT插件的功能，Expedia、OpenTable和Instacart等合作伙伴應(yīng)用程序可以通過(guò)這一功能讓ChatGPT訪(fǎng)問(wèn)他們的服務(wù)，允許其代表人類(lèi)用戶(hù)訂購(gòu)商品。

“藍(lán)軍”團(tuán)隊(duì)的人工智能安全專(zhuān)家丹·亨德里克斯(Dan Hendrycks)表示，這種插件可能會(huì)讓人類(lèi)自己成了“局外人”。

“如果聊天機(jī)器人可以把你的私人信息發(fā)布到網(wǎng)上，訪(fǎng)問(wèn)你的銀行賬戶(hù)，或者派人到你家里去，你會(huì)怎么想？”亨德里克斯說(shuō)。“總的來(lái)說(shuō)，在我們讓人工智能掌握網(wǎng)絡(luò)力量之前，我們需要更強(qiáng)有力的安全評(píng)估。”

“藍(lán)軍”成員還警告說(shuō)，OpenAI不能僅僅因?yàn)檐浖?shí)時(shí)響應(yīng)就停止安全測(cè)試。在喬治城大學(xué)安全和新興技術(shù)中心工作的希瑟·弗雷斯(Heather Frase)還對(duì)GPT-4是否會(huì)協(xié)助犯罪行為進(jìn)行了測(cè)試。她說(shuō)，隨著越來(lái)越多的人使用這項(xiàng)技術(shù)，風(fēng)險(xiǎn)將繼續(xù)增加。

她說(shuō)：“你做實(shí)際運(yùn)行測(cè)試的原因是，一旦用到真實(shí)環(huán)境中，它們的表現(xiàn)就不同了。她認(rèn)為，應(yīng)該開(kāi)發(fā)公共系統(tǒng)來(lái)報(bào)告大型語(yǔ)言模型引發(fā)的各類(lèi)事件，類(lèi)似于網(wǎng)絡(luò)安全或消費(fèi)者欺詐報(bào)告系統(tǒng)。

勞動(dòng)經(jīng)濟(jì)學(xué)家兼研究員莎拉·金斯利(Sara Kingsley)建議，最好的解決辦法是像食品包裝上的“營(yíng)養(yǎng)標(biāo)簽”那樣，直接說(shuō)明危害和風(fēng)險(xiǎn)。

她說(shuō)：“關(guān)鍵是要有一個(gè)框架，知道經(jīng)常出現(xiàn)的問(wèn)題是什么，這樣你就可以有一個(gè)安全閥。”“這就是為什么我說(shuō)工作永遠(yuǎn)做不完。”

責(zé)任編輯：姜華來(lái)源：網(wǎng)易科技