如何正確看待 AI 的推理能力?走出人類(lèi)中心主義 原創(chuàng) 精華
編者按: 人工智能真的能“推理”嗎?我們是否正在用過(guò)于狹隘的人類(lèi)思維,限制了對(duì) AI 推理能力的認(rèn)知?我們今天為大家?guī)?lái)的文章,作者的觀點(diǎn)是:AI 的推理能力不應(yīng)被簡(jiǎn)單地用“人類(lèi)中心主義”的標(biāo)準(zhǔn)來(lái)否定。文章重點(diǎn)揭示了三個(gè)關(guān)鍵內(nèi)容:
- 推理能力的定義應(yīng)更加開(kāi)放,不應(yīng)局限于傳統(tǒng)人類(lèi)思維模式
- 通過(guò)多個(gè)標(biāo)準(zhǔn)化測(cè)試(如 HellaSwag、WinoGrande),AI 在推理任務(wù)中已展現(xiàn)出顯著能力
- 我們需要以更開(kāi)放的心態(tài),將 AI 視為一種獨(dú)特的“外星智能”
這不僅是一篇技術(shù)解讀,更是對(duì)人類(lèi)智能的深刻反思。在 AI 快速迭代的今天,我們是否能突破“人類(lèi)中心主義”的思維桎梏,以更開(kāi)放、更謙遜的態(tài)度擁抱這種新興的“外星智能”?
作者 | Rafe Brena, Ph.D.
編譯 | 岳揚(yáng)
Image by the author using ChatGPT
近期,關(guān)于人工智能是否具備推理能力的討論愈發(fā)白熱化。近期發(fā)布的 DeepSeek R1 模型和 OpenAI o3-mini 模型[1]引發(fā)了各方反應(yīng)[2],有觀點(diǎn)認(rèn)為“這不過(guò)是炒作和幻象”,也有觀點(diǎn)視其為“人工智能的新典范”。
人工智能的推理能力(或推理能力的缺失)似乎觸動(dòng)了眾多人的敏感神經(jīng)。我猜想,他們認(rèn)為承認(rèn)人工智能能夠“推理”被看作是對(duì)人類(lèi)自尊的一種打擊,因?yàn)檫@樣說(shuō)明推理并非人類(lèi)獨(dú)享。
在十九世紀(jì),算術(shù)被視為一種智力成就(嘿,你見(jiàn)過(guò)牛做加法嗎?)。然而,我們必須適應(yīng)使用遠(yuǎn)比我們強(qiáng)大的計(jì)算器。
我見(jiàn)過(guò)一些令人震驚的論斷,從“我們即將實(shí)現(xiàn)通用人工智能”到“人工智能已達(dá)到博士水平”再到對(duì)人工智能推理能力的徹底否定,例如“蘋(píng)果公司稱(chēng)人工智能革命是扯淡”。
在其它文章中,我曾評(píng)論過(guò)埃隆·馬斯克(Elon Musk)的粉絲們所宣稱(chēng)的 AGI 是多么的無(wú)稽之談。在本文中,我將探討上述觀點(diǎn)的另一端:針對(duì)那些宣稱(chēng)人工智能根本無(wú)法推理的人。
加里·馬庫(kù)斯(Gary Marcus)[3],最直言不諱的人工智能否認(rèn)者(我并不稱(chēng)他們?yōu)椤皯岩烧撜摺保J(rèn)為人工智能在模式識(shí)別上可能表現(xiàn)卓越,但缺乏“真實(shí)推理”的能力。
此外,馬庫(kù)斯將 AI chatbots 稱(chēng)作“被美化的自動(dòng)補(bǔ)全”,為艾米莉·本德(Emily Bender)在 ChatGPT 早期發(fā)明的著名貶義詞“隨機(jī)鸚鵡”增添了一個(gè)新術(shù)語(yǔ)。
何為“真正的推理(genuine reasoning)”?我將在下文中嘗試回答這個(gè)問(wèn)題。
甚至像諾姆·喬姆斯基(Noam Chomsky)這樣更有聲望的思想領(lǐng)袖也認(rèn)為人工智能無(wú)法 “真正思考”,認(rèn)為它缺乏 “understanding of meaning”(譯者注:部分研究者認(rèn)為,AI 可能通過(guò)“具身智能”(embodied AI)或更復(fù)雜的多模態(tài)學(xué)習(xí)逐步接近“意義理解”。但喬姆斯基派堅(jiān)持認(rèn)為,只要 AI 沒(méi)有意識(shí)、意圖和身體經(jīng)驗(yàn),其“理解”就與人類(lèi)有本質(zhì)區(qū)別。)。他還認(rèn)為,人工智能永遠(yuǎn)無(wú)法與人類(lèi)的創(chuàng)造力和抽象思維能力相抗衡。
01 大語(yǔ)言模型(LLMs)能推理嗎?
在這些支持和反對(duì)人工智能具備推理能力的激進(jìn)觀點(diǎn)的洪流中,我們?cè)鯓硬拍芾斫饽男┦腔谑聦?shí)的,而不僅僅是單純的個(gè)人感覺(jué)或個(gè)人想法呢?當(dāng)然是看證據(jù)。
但這場(chǎng)爭(zhēng)議中的“事實(shí)(facts)”究竟是什么?請(qǐng)注意,所謂“事實(shí)”很大程度上取決于你對(duì)“推理”的定義,尤其是當(dāng)有些人進(jìn)一步要求推理應(yīng)當(dāng)是“真正地推理(truly reason)”時(shí)。例如,薩爾瓦托雷·拉伊利(Salvatore Raieli )在他最近的文章中問(wèn)道:
“大語(yǔ)言模型(LLMs)真的能推理嗎?(Can Large Language Models (LLMs) truly reason?)”
這里的關(guān)鍵詞是“真正地(truly)”。那么,“推理”與“真正地推理”有何區(qū)別?我懷疑這里存在一種人類(lèi)中心主義的偏見(jiàn),好像“真正地推理”意味著“像我們?nèi)祟?lèi)一樣推理,我們是宇宙中唯一真正的推理者”。
相反,我更愿意將“推理”定義為解決公認(rèn)需要推理的問(wèn)題的認(rèn)知能力。這包括數(shù)學(xué)推理(mathematical reasoning)、常識(shí)推理(commonsense reasoning)、語(yǔ)言理解(language understanding)和推斷(inference)等。
這個(gè)定義可能有些循環(huán)論證的嫌疑。但一旦我們就一系列與特定能力相關(guān)的問(wèn)題達(dá)成共識(shí),接下來(lái)就是檢驗(yàn)人工智能系統(tǒng)是否能解決這些問(wèn)題。問(wèn)題在于,正如我將在下文中論述的,當(dāng)前的人工智能可能在解決某個(gè)問(wèn)題時(shí)得心應(yīng)手,但對(duì)人類(lèi)而言看似與這個(gè)問(wèn)題相似的問(wèn)題(如不同角度的物體識(shí)別、同一問(wèn)題的不同表達(dá)方式),AI系統(tǒng)可能完全無(wú)法處理。
請(qǐng)留意,在采用這個(gè)定義時(shí),我明確與著名的“圖靈測(cè)試”(Turing Test)區(qū)分開(kāi)來(lái)。圖靈測(cè)試的目的是想通過(guò)騙過(guò)人類(lèi)評(píng)委,讓他們以為自己是在和真人對(duì)話。如果你還沒(méi)聽(tīng)說(shuō)過(guò)圖靈測(cè)試,可以看看我寫(xiě)的文章“Why the Turing Test Became Obsolete?(圖靈測(cè)試為何不再適用?)”[4]
同時(shí),我也不同意那種認(rèn)為人工智能要變得聰明就必須“像人一樣推理”的觀點(diǎn)。我認(rèn)為“像人類(lèi)一樣推理”這種表述是模糊的、擬人化的,且沒(méi)有實(shí)際價(jià)值。
在文章的最后一部分,我認(rèn)為現(xiàn)代人工智能其實(shí)根本不是“像人一樣推理”;它更像是一種非人類(lèi)的形式、或者說(shuō)“外星”智能。
另外,還有人提出,“真正的推理”應(yīng)該是在所謂的“思維鏈”(Chain of Thought,CoT)中進(jìn)行的“多步驟思考(think in several steps)”。
這個(gè)和 AI chatbots 有關(guān)的想法,最初是由谷歌研究院在 2022 年的一篇論文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”[5]中提出的。OpenAI 實(shí)現(xiàn)了這個(gè)想法,并且做得很好,因此有人稱(chēng)其為 “人工智能的新范式”。
我并不反對(duì)在人工智能中使用思維鏈(CoT),比如 OpenAI 就做得很好(相關(guān)測(cè)試結(jié)果清楚地表明了改進(jìn)之處)。但我覺(jué)得,推理是一種認(rèn)知能力,不僅僅局限于多步驟的思考。
推理也不只是“解決復(fù)雜問(wèn)題”(就像上文提到的 Raieli 說(shuō)的那樣)。我覺(jué)得推理可以很簡(jiǎn)單,也可以很復(fù)雜,而且每種推理都應(yīng)該有客觀的測(cè)試方法。
說(shuō)到這里,你大概能明白為什么很多人覺(jué)得“人工智能不會(huì)推理”了:
- 有些人覺(jué)得人工智能不是“真的”在推理,或者不是“像人一樣推理”。
- 另一些人認(rèn)為 AI 應(yīng)該精通“復(fù)雜推理和問(wèn)題解決”,卻忽視了更簡(jiǎn)單的推理形式。
- 還有一些人對(duì)任何不是由一系列推理步驟組成的推理都不屑一顧。
很多事情都是細(xì)節(jié)決定成敗,這里的細(xì)節(jié)就是怎么定義所謂的“推理能力”。我已經(jīng)在上文給出了我的定義。我覺(jué)得這些對(duì)人工智能推理能力的質(zhì)疑其實(shí)是一種偏見(jiàn),因?yàn)橐婚_(kāi)始就改變了“推理”的含義。
現(xiàn)在,我們來(lái)聊聊怎么驗(yàn)證和衡量推理能力。
02 怎么衡量智能?
請(qǐng)記住,我們衡量認(rèn)知能力的標(biāo)準(zhǔn),與蒙騙那些被誘導(dǎo)相信自己在“與擁有靈魂的實(shí)體互動(dòng)”的輕信者毫無(wú)關(guān)系 —— 這讓人想起前谷歌工程師布萊克·勒莫因(Blake Lemoine)那聽(tīng)起來(lái)很玄但其實(shí)不對(duì)的觀點(diǎn),他曾以道德理由拒絕關(guān)閉一個(gè)“有意識(shí)”的 AI chatbot。
咱們衡量認(rèn)知能力,可不能靠主觀感覺(jué)。得用標(biāo)準(zhǔn)的題庫(kù)來(lái)測(cè)量,比如:
- HellaSwag[6] 和 WinoGrande[7],用來(lái)看看 AI 的常識(shí)推理能力怎么樣。
- GLUE[8] 和 SuperGLUE,用來(lái)評(píng)估 AI 理解自然語(yǔ)言的能力。
- InFoBench[9],用來(lái)檢查 AI 能不能好好遵循指令。
- AI2 Reasoning Challenge(ARC)[10],里面還包括了思維鏈能力的測(cè)試。
這些題庫(kù)各有各的側(cè)重點(diǎn),但都在考察“推理”能力。你得知道,“推理”可并不是一個(gè)單一的任務(wù),很多不同的任務(wù)都可以算是“推理”。
從我開(kāi)始用 ChatGPT 的時(shí)候,我就發(fā)現(xiàn)它特別聽(tīng)話,能按指令辦事。說(shuō)實(shí)話,這讓我對(duì)大語(yǔ)言模型(LLMs)的推理能力有了新的認(rèn)識(shí),我下面會(huì)詳細(xì)說(shuō)說(shuō)。
有一天,我聽(tīng)到了 Sebastien Bubeck(那時(shí)候他在微軟,現(xiàn)在在 OpenAI)關(guān)于大語(yǔ)言模型的推理能力的一個(gè)很有道理的觀點(diǎn):
要是 AI 不懂指令,它怎么會(huì)照著做呢?
沒(méi)錯(cuò)。
Bubeck 的意思不是 AI 會(huì)說(shuō)“我聽(tīng)懂了你的問(wèn)題”。而是 AI 會(huì)按照指令去做,然后我們?nèi)耍ɑ蛘邉e的程序)來(lái)檢查它做得對(duì)不對(duì)。
現(xiàn)在有了衡量遵循指令能力的基準(zhǔn)測(cè)試,這個(gè)觀點(diǎn)可以更深入地討論。
接下來(lái),讓我們探討一下常識(shí)推理。這被認(rèn)為是人類(lèi)特有的品質(zhì),對(duì)吧?但事實(shí)上,常識(shí)推理也可以通過(guò)像 WinoGrande 這樣的基準(zhǔn)測(cè)試來(lái)評(píng)估。
來(lái)看看 WinoGrande 的問(wèn)題是怎么問(wèn)的。這個(gè)基準(zhǔn)測(cè)試大部分問(wèn)題都是關(guān)于代詞指代,比如這個(gè):
“Ann 問(wèn) Mary 圖書(shū)館什么時(shí)候關(guān)門(mén),因?yàn)樗浟恕!?/p>
這里的“她”是指誰(shuí),Ann 還是 Mary?
人類(lèi)一眼就能看出“她”是 Ann,因?yàn)閱?wèn)題是她問(wèn)的。但機(jī)器碰到這種問(wèn)題可能就犯難了。
很明顯,用題庫(kù)來(lái)測(cè)試 AI 的認(rèn)知能力時(shí),得確保 AI 之前沒(méi)見(jiàn)過(guò)這些題,不然就是“作弊”了。
那大語(yǔ)言模型在這些題庫(kù)測(cè)試?yán)锉憩F(xiàn)怎么樣呢?
比較起來(lái)有個(gè)麻煩,就是每家 AI 公司用的題庫(kù)都不一樣,我猜他們肯定是挑自己 AI 得分高的題庫(kù)。所以,大家常用的比較方法變成了使用“Chatbot arena”,不是看題庫(kù)成績(jī),而是看人投票。這又讓我們想起了圖靈測(cè)試的那些問(wèn)題……
截至 2024 年 12 月 10 日的 Chatbot 競(jìng)技場(chǎng)排名(Hugging Face)
在 HellaSwag 這個(gè)測(cè)試?yán)铮珿emini Pro 1.5 得了 92.5分(滿分100),GPT-4 Turbo 更厲害,得了 96 分(雖然不是最新版本,但也能看出個(gè)大概)。
這局 OpenAI 贏了,Google 輸了。
在 MMLU 這個(gè)測(cè)試(跟 GLUE 差不多)里,GPT-4 大概得了87分,Gemini Ultra 得了 90 分。
這局倆人都贏了一次,打平了。
我們還可以繼續(xù)比下去,但說(shuō)實(shí)話,現(xiàn)在最牛的這些 LLMs 水平都差不多。為啥呢?因?yàn)轫敿獾?AI 專(zhuān)家們都在這些大公司之間跳來(lái)跳去,人才流動(dòng)太頻繁了。
重點(diǎn)是,現(xiàn)在這些最厲害的 LLMs 都有的認(rèn)知能力,不是光靠運(yùn)氣或記憶力就能解釋的。所以,我覺(jué)得那個(gè)“隨機(jī)鸚鵡”的說(shuō)法,其實(shí)啥也說(shuō)明不了。
03 “外星智能”
咱們?nèi)祟?lèi)碰到現(xiàn)在這種人工智能(就是那種基于大語(yǔ)言模型的 AI)時(shí),經(jīng)常會(huì)覺(jué)得摸不著頭腦,這其實(shí)是有原因的。
我最近寫(xiě)了篇文章[11],說(shuō)了說(shuō)人類(lèi)智能和這種現(xiàn)代 AI 有啥不一樣。主要區(qū)別有這么幾點(diǎn):
- 區(qū)別1:人類(lèi)是真的有感情;機(jī)器呢,只是裝裝樣子。
- 區(qū)別2:人類(lèi)對(duì)事情的理解很明確,懂就是懂,不懂就是不懂。
- 區(qū)別3:機(jī)器在做決定時(shí),從來(lái)不會(huì)猶豫。
這三個(gè)區(qū)別都很重要,但我想重點(diǎn)說(shuō)說(shuō)區(qū)別2,因?yàn)樗评砟芰﹃P(guān)系最大。咱們來(lái)好好聊聊這個(gè)。
咱們?nèi)祟?lèi)有時(shí)候會(huì)突然“開(kāi)竅”,對(duì)某個(gè)事情有了徹底的理解,這種理解是很堅(jiān)定的,不會(huì)因?yàn)橐恍o(wú)關(guān)緊要的細(xì)節(jié)就改變。但是機(jī)器呢,就不是這么回事了。
最近,蘋(píng)果公司的研究人員發(fā)了篇論文[12],這篇論文引起了很大的反響(而且是好的那種)。論文里說(shuō)了,大語(yǔ)言模型在推理任務(wù)上其實(shí)有很多局限性。
蘋(píng)果的研究人員還專(zhuān)門(mén)做了數(shù)學(xué)推理能力測(cè)試,用了一種特別的測(cè)試方法來(lái)評(píng)估。他們做了些很有意思的實(shí)驗(yàn),我接下來(lái)就給大家講講。
在其中一項(xiàng)實(shí)驗(yàn)中,研究人員先測(cè)試了系統(tǒng)在回答一系列問(wèn)題時(shí)的表現(xiàn),然后他們對(duì)問(wèn)題進(jìn)行了一系列所謂的無(wú)關(guān)修改,比如改了人名、數(shù)字或者加入了一些無(wú)關(guān)的內(nèi)容。結(jié)果他們發(fā)現(xiàn),當(dāng)再次測(cè)試時(shí),系統(tǒng)的表現(xiàn)大幅下滑。
為什么修改這些無(wú)關(guān)信息會(huì)導(dǎo)致系統(tǒng)表現(xiàn)下降呢?因?yàn)樵陬?lèi)似的情況下,人類(lèi)幾乎總能分辨出哪些信息是重要的,哪些不是,然后忽略掉無(wú)關(guān)的信息。但機(jī)器在這方面就很吃力了,盡管它們?cè)诤芏嗲闆r下都能給出正確答案,但整體表現(xiàn)還是受到了很大影響。
蘋(píng)果公司的實(shí)驗(yàn)無(wú)可辯駁。但如何解讀這些結(jié)果確實(shí)是個(gè)問(wèn)題。
在得出結(jié)論時(shí),我發(fā)現(xiàn)蘋(píng)果的研究人員也和大家一樣有偏見(jiàn)。比如,他們說(shuō)“當(dāng)前的 LLMs 無(wú)法進(jìn)行真正的邏輯推理。”我猜各位讀者能找出這句話的關(guān)鍵詞,就是“真正的”。我們?cè)俅伟讶祟?lèi)的推理視為唯一“真實(shí)”的推理方式。
04 結(jié)束語(yǔ)
大多數(shù)對(duì) AI 推理的否認(rèn)都基于一種偏見(jiàn),這種偏見(jiàn)通常與“AI 應(yīng)該像人類(lèi)一樣推理”的假設(shè)有關(guān)。如果不是這樣,那么 AI 就不是在推理——或者說(shuō)不算作推理。
這一切都取決于我們?nèi)绾味x“AI 能推理”。
有些人認(rèn)為,模式匹配意味著完全無(wú)法進(jìn)行“真實(shí)”的推理,即使 AI 在大多數(shù)情況下都能給出正確答案。
這就好像在說(shuō),任何通過(guò)模式匹配完成的事情“都不算作推理”。但是,如果 AI 在許多——不是所有的推理測(cè)試中都給出了正確答案呢?如果 AI 在推理問(wèn)題上逐漸給出了越來(lái)越高的準(zhǔn)確率,無(wú)論是否使用模式匹配呢?
我再次看到了我們的“人類(lèi)自豪感”在作祟。我們?nèi)祟?lèi)是宇宙的主宰,不是嗎?所以,我們的推理應(yīng)該是唯一有效的推理方式。我們已經(jīng)先后被計(jì)算器、深藍(lán)(國(guó)際象棋)和阿爾法狗(圍棋)超越,受到了打擊。現(xiàn)在,我們的通用推理能力又受到了“大規(guī)模模式匹配”裝置的挑戰(zhàn),這簡(jiǎn)直是雪上加霜。
我們是要固守'人類(lèi)中心主義'的立場(chǎng)——自視為宇宙的主宰,還是轉(zhuǎn)向更謙遜(或許也更現(xiàn)實(shí))的認(rèn)知:將人類(lèi)視為非凡但有限的存在,能夠與其他形態(tài)的智能進(jìn)行互動(dòng)?
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Rafe Brena, Ph.D.
AI expert, writepreneur, and futurologist. I was in AI way before it became cool.
END
本期互動(dòng)內(nèi)容 ??
?在你看來(lái),AI 的推理能力與人類(lèi)推理能力最大的不同點(diǎn)是什么?
??文中鏈接??
[1]??https://openai.com/index/openai-o3-mini/??
[3]??https://x.com/garymarcus??
[6]??https://paperswithcode.com/dataset/hellaswag??
[7]??https://winogrande.allenai.org/??
[8]??https://gluebenchmark.com/??
[9]??https://arxiv.org/abs/2401.03601??
[10]??https://paperswithcode.com/dataset/arc??
[12]??https://arxiv.org/pdf/2410.05229??
原文鏈接:
??https://towardsdatascience.com/why-ai-cant-reason-is-a-bias-3c582bba1aeb??
