用「圖靈測試」檢驗AI尤其是大語言模型,真的科學嗎?
在發布后的近兩年時間里,ChatGPT 表現出了一些非常類似人類的行為,比如通過律師資格考試。這讓一些人懷疑,計算機的智力水平是否正在接近人類。大多數計算機科學家認為,機器的智力水平還不能與人類相提并論,但他們還沒有就如何衡量智力或具體衡量什么達成共識。
檢驗機器智能的經典實驗是圖靈測試,由艾倫?圖靈在其 1950 年發表的論文《Computing Machinery and Intelligence》中提出。圖靈認為,如果計算機能讓與之進行打字對話的人相信它是人類,這可能就是智能的標志。大型語言模型(LLM),如 GPT,擅長像人一樣說話,但尚未令人信服地通過圖靈測試。
2023 年,加州大學圣迭戈分校(UCSD)的研究人員公開進行了一次圖靈測試,目的是比較最新的 LLM 與 20 世紀 60 年代開發的聊天機器人 Eliza 的表現。在律師資格考試中獲得高分的 GPT-4 表現相當出色,在 41% 的游戲中,評委認為它與人類無異。而它的前身 GPT-3.5 只通過了 14% 的游戲,低于 Eliza 的 27%。人類在 63% 的游戲中通過(被判定為人類)。
論文鏈接:https://arxiv.org/pdf/2310.20216v1
負責這項實驗的 UCSD 認知科學博士生 Cameron Jones 說,人類得分如此之低并不奇怪。這是因為玩家預計模型會表現出色,所以他們更容易認為人類只是一個聽起來像人類的模型。Jones 說,目前還不清楚聊天機器人必須達到多少分才能贏得游戲。
圖靈測試可用于檢查客服聊天機器人是否以人們樂于接受的方式與人互動,從而展示 Jones 所說的靈活的社交智能。不過,它能否識別出更通用的智能還很難說。Jones 說:「我們對什么是人類的智能還不甚了解。如果我們能更快地通過模型解決這個問題,我會感到很驚訝。」
圣塔菲研究所復雜性學教授 Melanie Mitchell 說:「我認為圖靈測試的整個概念都被過于字面化了。」她認為,圖靈提出的「模仿游戲」是一種思考機器智能可能是什么樣子的方法,而不是一種定義明確的測試?!溉藗冚p率地使用這個術語,說大型語言模型通過了圖靈測試,而事實上它們并沒有通過測試?!?/span>
新的測試
不過,如果圖靈測試不能可靠地評估機器智能,那就提出了一個問題:什么方法可以?普林斯頓大學心理學家 Philip Johnson-Laird 和德國開姆尼茨工業大學預測分析學教授 Marco Ragni 在 2023 年 11 月發表在《智能計算》雜志上的一篇論文中提出了一個不同的測試方法:他們建議把模型當作心理實驗的參與者,看看它能否理解自己的推理過程。
例如,他們會向一個模型提出這樣的問題:「如果 Ann 很聰明,那么她是聰明還是富有,或者兩者都是?」雖然根據邏輯規則,可以推斷出安是聰明人、富人或兩者都是,但大多數人類都會拒絕這個推斷,因為設定中沒有任何東西表明她可能是富人。如果模型也拒絕了這一推斷,那么它的行為就和人類一樣,研究人員就會進入下一步,要求機器解釋其推理。如果它給出的理由與人類相似,第三步就是檢查源代碼中模擬人類表現的組件。
這些組件可能包括一個快速推理系統、另一個更深思熟慮的推理系統,以及一個根據上下文改變 「或」等詞的解釋的系統。研究人員認為,如果模型通過了所有這些測試,就可以認為它模擬了人類智能。
英國考文垂大學研究機器智能并進行過圖靈測試的計算機教授 Huma Shah 說,Johnson-Laird 和 Ragni 的方法可能確實會提供一些有趣的見解,但質疑一個模型的推理能力并不是什么新鮮事?!笀D靈測試允許這種邏輯質疑,」她說。
Shah 還表示,試圖測試智力的麻煩在于,這首先取決于人們如何定義智力。是模式識別能力、創新能力,還是創造音樂或喜劇等創意的能力?「因此,如果我們沒有就人工智能中的『I』達成一致,那么我們怎么能建立通用人工智能(AGI)呢?」
谷歌的軟件工程師和人工智能專家 Francois Chollet 則認為圖靈測試并不是特別有用。他說,一個好的測試應該有一個確切的、形式化的目標,并且應該衡量一個系統有多接近這個目標。他指出:「圖靈測試并沒有做到這些?!?/span>
Chollet 說,LLM 在圖靈測試中的表現只能說明他們擅長使用語言,而這種技能完全來自于對大量數據的記憶。他認為,真正的智能并不在于掌握某項技能,而在于把學到的知識運用到新的、不同的情境中?!窵LM 百分之百都是記憶。他們沒有智能。他們沒有適應能力?!笴hollet 說。
在他看來,智力是一種有效獲得新技能的能力,而這些技能是訓練過程中沒有準備好的,目的是完成與系統之前所見過的任務差異足夠大的任務。人類終其一生都在與世界互動,本質上是在進行實驗,以便建立一個反映世界如何運行的模型。這樣當他們遇到新情況時,就能學會如何處理。新技能的范圍越廣,計算機就越接近實現通用人工智能。
Chollet 說:「如果你能讓學習過程像人類大腦一樣高效地處理信息,那么你就擁有了 AGI。」到目前為止,機器的學習效率遠遠落后于人腦,大約比人腦低 1 萬倍。例如,計算機需要數百萬張圖片才能學會識別貓的圖片,而人類只需一兩個例子就能學會識別貓。
為了測試他定義的智力,Chollet 開發了抽象與推理語料庫(ARC)。ARC 的挑戰是通過基本的積木,如形狀或大小等簡單概念來完成的。這些積木用于創建任務,如按大小對物體進行分類或補全對稱圖案。測試對象會看到三個示例,他們應該能夠識別目標并完成任務。Chollet 說,最好的 AI 大約有 30% 的時間能夠實現目標,而人類則有 80% 的時間能夠做到。
項目鏈接:https://github.com/fchollet/ARC-AGI
每項任務都不同于測試對象以前見過的任何任務,因此死記硬背無濟于事。他說:「這是一場無法練習的游戲。當 GPT-4 通過律師資格考試時,很可能是因為它見過足夠多與考試相似的例子,所以它能給出合理的答案,而不需要對法律有任何內在的理解?!?/span>
「這不是一個完美的測試。它有很多局限性和缺陷,」Chollet 說。例如,任務中存在足夠多的冗余,在舉出足夠多的例子后,測試對象可能會對答案做出有根據的猜測。不過,他說,它的基本思想是可靠的。
前面提到的圣塔菲研究所復雜性學教授 Melanie Mitchell 認為,要想獲得類似人類的通用智能,就必須有能力完成遠遠超出訓練數據的任務。她和她的小組提出了 ARC 的修訂版,圍繞基本概念組織任務,例如一物在另一物之上,或一物在另一物之內。
ConceptARC 的理念是測試計算機解決方案的穩健性,方法是讓計算機推導出一個概念的規則,然后將該概念應用到新任務中。
論文鏈接:https://arxiv.org/pdf/2305.07141
例如,她可能會向人工智能展示一個網格,在這個網格中,黃色方格位于藍色方格之上,而這個藍色方格又位于黃色方格之上。接著可能是一個紅色圓圈在一個綠色圓圈上面,然后又換成一個綠色圓圈在一個紅色圓圈上面。人類應該很容易理解的概念是,顏色在垂直位置上互換。然后,計算機必須將這一規則應用到一對新的圖形中。Mitchell 說,這些任務對人類來說很容易,但對機器來說似乎仍然非常具有挑戰性。
Mitchell 說,在某些情況下,比如試圖在海量數據中做出發現,計算機最好有自己的抽象方法。但在與人交互的情況下,例如駕駛汽車,以人類的方式理解世界就非常重要。
「我不認為智能是全有或全無。它是一個范圍,計算機做的某些事情是智能的,」Mitchell 說?!溉绻阆胝務撏耆?、人類水平的智能,我會說我們還有些遙遠,因為人類水平的智能有許多方面是我們看不到的?!?/span>