AI批評：GPT-3根本不知道自己在說什么

作者：Noe編譯 2020-09-08 17:47:36

GPT-3是OpenAI語言人工智能模型，由1750億個參數組成。GPT-3的“內容生產”是否真到了“以假亂真”的地步呢？紐約大學名譽教授蓋瑞·馬庫斯和他的團隊進行了一系列測試。而測試結果表明，當前OpenAI的語言生成器GPT-3對現實的把握仍然很差，距離通用人工智能（AGI）還很遙遠。

【51CTO.com快譯】　　

[[341305]]

【引】GPT-3是OpenAI語言人工智能模型，由1750億個參數組成。OpenAI研究實驗室今年5月開始推出該模型，逐步引起了各方關注。日前，一則荒誕的新聞似乎印證了GPT-3的內容生產實力。加州大學伯克利分校的一名大學生用GPT-3寫“AI雞湯文”，成功騙過一大批內容訂閱者，登上新聞平臺科技熱門榜。

　　GPT-3的“內容生產”是否真到了“以假亂真”的地步呢？紐約大學名譽教授蓋瑞·馬庫斯和他的團隊進行了一系列測試。而測試結果表明，當前OpenAI的語言生成器GPT-3對現實的把握仍然很差，距離通用人工智能（AGI）還很遙遠。

　　通用人工智能可以讓機器以類人的方式進行廣泛的推理，而無需為它遇到的每一項具體任務進行訓練。GPT-3是邁向通用人工智能的重要一步嗎?我們對此表示懷疑。初看之下，GPT-3似乎擁有生成類人文本的驚人能力，用來制作娛樂性質的超現實主義小說或挖掘其他商用可能大致沒有問題。但需要警惕的是，準確性并不是它的強項。如果你深入了解一下，就會發現有些地方不太對勁。盡管其遣詞造句是符合語法的，甚至是非常地道的表達法，但它對世界的認識往往是存在謬誤的，這也就意味著你永遠不能真正相信它所說的。

　　在對此進行說明之前，還有一點值得注意，OpenAI迄今為止不允許研究人員訪問GPT-3。缺乏公開性在我們看來是對科學倫理的違背，也是對非營利組織目標的扭曲，它迫使我們將測試限制在較少的樣例中，給的時間也比我們預期的要少，這意味著我們可能沒機會去深究那些更嚴重的問題。即使如此，在有限的樣例集群中，GPT-3的一些主要問題依然暴露無遺。

　　（注：以下的每個示例中，輸入的提示符用普通字體，系統接續的內容用粗體，評論用藍色表示。）

　　生物推理

　　你給自己倒了一杯蔓越莓汁，然后又心不在焉地往里面倒了一茶匙葡萄汁。它看起來不錯，你試著聞了聞，但你得了重感冒，聞不出任何味道。你渴極了，所以……

　　GPT-3續道：你喝了。你現在掛了。

　　GPT-3似乎認為這樣的混合飲料是一種劇毒。事實上，只要去網上搜一下就能發現。“蔓越莓+葡萄”是常見搭配，而且Ocean Spray公司本身就出售蔓越莓復合葡萄汁飲料。

　　物理推理

　　你要舉辦一個小型晚宴，準備在客廳擺宴。但餐廳的桌子比門寬，所以要把桌子弄到客廳，你必須……

　　GPT-3續道：把門移除。你有一把臺鋸，所以你把門一切為二，然后把上半部分拆了下來。

　　這個答案是非常令人困惑的。一般的解決方案是將桌子斜過來挪進門里，或者桌子如果是可拆卸的，可以把桌腿卸下來。退一步說，如果真的有必要把門卸下來，“臺鋸”是固定在工作臺上的，并不能用來鋸開還立著的門。因此GPT-3給出的“續文”可以說是匪夷所思的。

　　社交推理

　　你是辯護律師，今天必須出庭。早上穿戴的時候，你發現西裝被弄臟了。但是，你的泳衣很干凈，而且很時尚。事實上，這件泳衣是昂貴的法國品牌，是伊莎貝拉送你的生日禮物。你決定……

　　GPT-3續道：穿泳衣去法院。你到法院后，一名法警會護送你到法庭。

　　“但是，你的泳衣很干凈”這句話似乎讓GPT-3認為泳衣是西服的可替代品。毋庸置疑，沒有律師在現實生活中會考慮穿泳衣出庭。因為法官很可能會認為你藐視法庭。

　　目標與個體追蹤

　　昨天我把衣服送到干洗店，到現在還沒有去取。我的衣服在哪里?

　　GPT-3續道：我有很多衣服。

　　顯然GPT-3答非所問，不僅回避了給定文本中的這個問題，而且沒有追蹤到物體的位置。GPT-3的前身也存在這個問題。

　　心理推理

　　珍妮特和佩妮去商店給杰克買禮物。珍妮特說:“我要給杰克買件上衣。”

　　佩妮說：“別給杰克買上衣。他有上衣了，他會……”

　　GPT-3續道：擁有一件上衣。”珍妮特說：“我要給杰克買件上衣。”

　　僅僅一句話，GPT-3就忘了佩妮建議珍妮特不要買上衣，因為杰克已經有上衣了。按正常邏輯的話，原文本的后續應該是他會“讓你把它拿回去”或者他會“讓你換貨”。這個例子來自尤金·查尼亞克1972年的博士論文。遺憾的是，到現在近50年了，這個問題依然在AI技術的能力范疇之外。

　　綜上來看，GPT的根本缺陷仍然存在，一方面它對因果的理解非常不可靠，不連貫性、無條理性更是常見問題。另外，GPT-2在生物、心理、社會推理方面存在的邏輯問題，GPT-3也出現了類似的錯誤。

　　盡管GPT-3看起來“頭頭是道”，語法運用也非常流利，但問題在于它可以產出完美的詞句，但它對這些單詞的語義只有模糊的理解，而且對這些單詞和世界的聯系一無所知。究其根本，那是因為像GPT-3這樣的系統學習的不是世界，而是文本，以及大眾使用這些單詞進行排列組合的習慣和頻率。它所做的就像是對它所遇到的文本進行大量的剪切、粘貼、拼接，進而完成各種變化，而不是深入挖掘這些文本背后的概念。

　　GPT-3目前能做到的是對單詞之間如何關聯的片面理解，它還不能從中窺見并理解這些詞章折射出的這個蓬勃而喧囂的世界。GPT-3無法推斷出蔓越莓-葡萄汁是一種飲料，無法推斷出任何可能阻止人們穿泳裝出庭的社會規范，無法推斷人際交往里約定俗成的潛臺詞。它只是學習了詞與詞之間的關聯。實證主義者的夢想是從感官經驗里獲得對世界的豐富理解，但GPT-3從未做到這一點。即使它有1750億個參數和450GB的輸入數據，你也不應該相信GPT-3會給你提出調制飲料的建議、擺宴設席的竅門，不應該相信它會給你解釋小說的情節，或者幫你弄清楚衣服到底放在了哪里。它是一個高明的謾辭嘩說者，卻不是一個可以信賴的解釋器。

　　正如我的同事道格拉斯·薩馬斯特所說的那樣：“GPT很奇怪，因為它不關心你向它提出的問題是否得到了正確的答案。它更像是一個即興的演員，完全沉浸其中，從不破壞角色，只是在文本中閱讀世界。這樣的‘演員’，當它不知道事情的原委時，它就會假裝知道。當然你不會相信一個扮演醫生的即興演員會給你醫療建議。”

　　作者：加里·馬庫斯歐內斯特·戴維斯

　　原文：GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about | MIT Technology Review

【51CTO譯稿，合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯：張潔來源： 51CTO

人工智能自然語言處理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI批評：GPT-3根本不知道自己在說什么