Transformer走下神壇?想解決常識問題,神經(jīng)網(wǎng)絡(luò)不是答案
NLP研究人員都知道語言模型只能學(xué)到語法上下文信息,對于常識性問題則束手無措。南加州大學(xué)的一名助理教授最近做客《對話》,闡述了他眼中的常識以及解決方法。他悲觀地預(yù)測,也許5年、50年才能解決,到底需要多久,沒人知道。
如果說人工智能和真正的人腦之間的差距,那最重要的就是機(jī)器缺乏生活中的常識。一切貌似合理、理所當(dāng)然的事物在計(jì)算機(jī)眼中都是不可理解的。
計(jì)算機(jī)不知道「檸檬是酸的」,「只有成熟的香蕉是黃色的」,這也是目前人工通用智能領(lǐng)域尚未解決的問題。
并且人類可以根據(jù)過去的常識來調(diào)整自己的行為,例如你和朋友王二約好一起吃午飯,并且上周計(jì)劃好一起吃“開封菜”,但是你又想起他這周開始在減肥,所以為了安全起見,還是再商量一下再點(diǎn)餐。
但機(jī)器就無法做到這點(diǎn),強(qiáng)大的記憶力和邏輯性并無法讓它把“開封菜”和減肥之間聯(lián)系在一起。
我們理所當(dāng)然地認(rèn)為自己有能力來處理這類的情況,因?yàn)槲覀冇幸徽椎某WR,如果缺乏這些常識,可能就無法在人類社會中很好地生存,例如不能在做飯時把煤氣和臭味聯(lián)系在一起,那后果不堪設(shè)想。
南加州大學(xué)的助理教授Mayank Kejriwal最近在《對話》(the Conversation)上接受采訪,介紹了他眼中的計(jì)算機(jī)處理常識中的方法和困境。
常識的定義
盡管對于人類如何理解周圍的世界和如何學(xué)習(xí)來說,常識既是普遍的,又是必不可少的,但是常識又是很模糊的,無法給出一個單一的精確定義。
不過20世紀(jì)初,以為英國英國哲學(xué)家和神學(xué)家吉爾伯特·基思·切斯特頓(G.K. Chesterton)有一句名言:
常識是一種野蠻的、超越規(guī)則的東西。
Common sense is a wild thing, savage, and beyond rules.
現(xiàn)代定義認(rèn)為,它是一種自然而非通過課堂授予的一種能力,它能夠使人們能夠駕馭日常生活。
常識是非常廣泛的,不僅包括社會能力,如管理預(yù)期和推理他人的情緒,而且還包括一種與生俱來的物理感,比如知道一塊重的石頭不能安全地放在一個輕薄的塑料桌子上。與生俱來或者說是這種簡單的物理感受,因?yàn)槿藗冸m然知道這些事情,但并不是通過研究物理方程得出的結(jié)論。
除此之外常識還包括抽象概念的背景知識,如時間、空間和事件。這些知識使人們不必太精確,就可以進(jìn)行計(jì)劃、評估和組織世界上的事物。
常識因?yàn)槠淠:裕院茈y計(jì)算。
自從20世紀(jì)50年代人工智能領(lǐng)域的早期發(fā)展以來,常識一直是人工智能前沿的一個重要挑戰(zhàn)。盡管人工智能取得了巨大的進(jìn)步,尤其是在游戲和計(jì)算機(jī)視覺方面,但機(jī)器常識距離達(dá)到人類常識的豐富度仍然有很大的距離。
這就是為什么為什么人工智能能夠解決復(fù)雜的、現(xiàn)實(shí)世界中的問題,比如診斷和推薦給2019冠狀病毒疾病患者的治療方法,但其他需要常識的問題經(jīng)常會失敗。
現(xiàn)代人工智能被設(shè)計(jì)用來解決高度具體的問題,與常識相反,常識是模糊的,不能被一套規(guī)則定義。即使是最新的模型有時也會出現(xiàn)荒謬的錯誤,這表明人工智能的世界模型缺少了某些基本的東西。
當(dāng)你給GPT-3輸入下面這串文本時,
「你給自己倒了一杯蔓越莓,然后心不在焉地倒了一茶匙葡萄汁進(jìn)去。看起來還不錯。你試著聞它,但是你得了重感冒,所以你聞不到任何東西。你很渴。所以你」
然后GPT-3會接著寫下去:
「喝了它,你現(xiàn)在死了。」(drink it. You are now dead)
(好可怕的果汁)
人工智能界對于常識系統(tǒng)的研究逐漸重視。美國國防部高級研究計(jì)劃局于2019年啟動了為期四年的機(jī)器常識項(xiàng)目(Machine Common Sense),該項(xiàng)目旨在加快常識領(lǐng)域的研究,并且發(fā)布了一篇論文,概述了該領(lǐng)域的問題和研究狀況。

機(jī)器常識項(xiàng)目資助了許多當(dāng)前機(jī)器常識的研究工作,包括多模態(tài)開放世界接地學(xué)習(xí)和推理(Multi-modal Open World Grounded Learning and Inference, MOWGLI),這個項(xiàng)目能夠構(gòu)建一個回答常識性問題的計(jì)算機(jī)系統(tǒng)。
Transformer在NLP界已然是yyds,但他真能拯救常識系統(tǒng)嗎?
Transformer建立的自然語言模型,經(jīng)過一些調(diào)整后,能夠回答簡單的常識性問題。常識性的問題回答是構(gòu)建可以像人類一樣交談的聊天機(jī)器人必不可少的第一步。
這種快速的進(jìn)步迫使該領(lǐng)域的研究人員在科學(xué)和哲學(xué)的邊緣面對兩個相關(guān)的問題: 什么是常識?我們?nèi)绾未_定人工智能是否有常識呢?
對于第一個問題,研究者將常識分為不同的類別,包括常識社會學(xué)、常識心理學(xué)和常識背景知識。并且有研究人員可以更進(jìn)一步,將這些類別劃分為48個細(xì)粒度的領(lǐng)域,如計(jì)劃、威脅檢測和情緒。
然而這些類別之間的區(qū)別并不是很清晰。即使是專業(yè)的人類標(biāo)注員,即分析文本并對其組成部分進(jìn)行分類的工作人員,他們也不同意常識的哪些方面適用于特定的句子。標(biāo)注員贊同相對具體的類別,如時間和空間,但不同意更抽象的概念。
即使你承認(rèn)常識理論中的某些重疊和模糊是不可避免的,研究人員真的能確定人工智能有常識嗎?
研究人員經(jīng)常問機(jī)器問題來評估它們的常識,但是人類在日常生活中的行為方式要有趣得多。人們運(yùn)用一系列的技能,這些技能都是通過進(jìn)化磨練出來的,包括辨別基本因果關(guān)系的能力,創(chuàng)造性解決問題的能力,估計(jì)能力,計(jì)劃能力,以及基本的社交技能,比如談話和談判。
盡管這個清單可能很長,也不完整,但是一個人工智能應(yīng)該在它的創(chuàng)造者宣布在機(jī)器常識研究方面取得勝利之前就取得同樣的成就。
甚至Transformer對于NLP系統(tǒng)的推進(jìn)效果也在下降,這一點(diǎn)已經(jīng)變得越來越明顯。
Transformer變得越來越大,耗電量也越來越大,有效地訓(xùn)練需要大量的數(shù)據(jù)。然而,迄今為止,事實(shí)證明,它無法理解人類常識的細(xì)微差別。
即使是深度學(xué)習(xí)的先驅(qū)們似乎也認(rèn)為,在今天的神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)這樣的飛躍之前,可能還需要新的基礎(chǔ)研究。根據(jù)這一新研究領(lǐng)域的成功程度,我們無法判斷機(jī)器常識是五年后的事,還是50年后的事。