Nature:神經網絡“舉一反三”能力甚至超人類
神經網絡具有類似人的“舉一反三”能力,甚至超過人類水平???
最近刊于Nature的一篇論文表示找到了證據。
“舉一反三”的能力更專業點叫做系統性泛化能力。像小孩子一樣,一旦學會了如何“跳”,他們就可以理解如何“向后跳”、“繞錐體跳過兩次”。
要知道,早在1988年,認知科學家Fodor、Pylyshyn就提出了系統性挑戰,認為人工神經網絡缺乏這種能力。
Nature的這篇文章中表示,研究人員用一種叫做MLC的方法,通過在動態變化的組合任務流中訓練,神經網絡可以獲得人類般的組合推理能力。
他們還將MLC和人類在相同的系統性泛化測試中進行了比較。結果機器學習的系統性泛化基準測試表明,MLC錯誤率不到1%,并且還可以模擬人類的認知偏見導致的錯誤。
相比之下,GPT-4 在相同的任務中平均失敗率在42%到86%之間,具體取決于研究人員如何提出任務。
挑戰已存在35年的觀點
35年前,認知科學家Fodor、Pylyshyn提出了一個著名的觀點:
人工神經網絡由于缺乏組合性,不太可能成為合理的認知模型。
換句話說,人類語言和思維的精髓在于系統性組合,而神經網絡只能表示特定的事物,缺乏這種系統性組合能力。
這個觀點引發學界激烈討論。其中反駁觀點主要集中于兩個方面。
一是盡管人類的組合技能很重要,但它們可能并不具有Fodor、Pylyshyn所說的那樣的系統性和規則性。
二是雖然神經網絡在基本形式上受到了限制,但使用復雜的架構可以增強系統性。
雖然最近幾年,神經網絡在自然語言處理等方面有了很大進展和突破,相關辯論也隨之升級。
但時至今日,系統性的問題仍沒有一個定論。
基于此,紐約大學心理與數據科學助理教授Brenden M. Lake、西班牙加泰羅尼亞研究所(ICREA)研究教授Marco Baroni提出了一種叫做MLC(meta-learning for compositionality)的元學習神經網絡模型。
具體來說,用的是一種通過特殊指導和人類示例來指定模型行為的方法,然后要求神經網絡通過元學習獲得正確的學習技巧。
研究人員還表示,MLC使用的是標準的Seq2Seq架構,常見的神經網絡并沒有添加符號機制,也沒有手動設計內部表示或歸納偏見。
舉個例子來說明訓練過程。如下圖所示,給神經網絡模型一個“連續跳躍兩次”(skip twice)的指令。并用箭頭和小人來展示學習示例,告訴機器jump(跳)、skip(跳過)、jump twice是怎樣的。
然后將輸出的skip twice和行為目標比較:
類似情境,引入下一個詞“向后踮腳尖繞過一個錐體”,要求神經網絡組合向后走(walk backwards)、踮腳尖(tiptoe)、繞錐體行走(walk around a cone)的動作,推出如何“向后踮腳尖繞過一個錐體”。
機器VS人類
為了展示MLC方法的性能,研究人員對人類和機器在相同的系統性泛化測試中進行了評估。
實驗基于一個少樣本學習偽語言任務進行,其中詞匯與特定的符號或顏色有關。
比如給出基本詞匯,“dax”是紅色,“wif”是綠色,“lug”是藍色。
還有三個Function。Function 1中,“lug fep” 代表三個藍色的連續圈圈,“dax fep” 代表三個紅色的連續圈圈。
Function 2代表的是交替,像“lug blicket wif” 代表藍綠藍三個顏色的圈圈。
Function 3代表把輸出順序倒過來,像“dax kiki lug” 代表藍紅(根據基本詞匯應該是紅藍)。
還可以組合不同的Function,比如“wif blicket dax kiki lug”是藍綠紅綠。
△MLC架構
然后研究人員對25名人類的反應和機器的反應進行了比較:
研究人員還測試了在不給出任何示例的情況下,人類和機器歸納這種方法后的輸出,為的是測驗人類的歸納偏見:
測試后的結果表明,人類能夠系統性地泛化,正確率約為80%,但也存在一些偏見。
而使用MLC方法機器可以達到或超過人類的系統性泛化水平。
MLC還可以預測哪些指令對人們來說更容易或更難。
下圖展示了模型預測人類行為的log-likelihood值(用來判斷模型預測數據的好壞),數值越大表示模型的預測越準確:
研究人員還在兩個常見的機器學習的系統性泛化基準測試SCAN、 COGS中,著重關注MLC處理新單詞和單詞組合方面的表現,結果顯示錯誤率不到1%。
△在機器學習基準測試中進行系統性詞匯泛化的錯誤率
他們還表示,在純粹的代數推理和模擬人類復雜組合行為的情況中,MLC還可以模擬人類的認知偏見導致的錯誤模式,這說明神經網絡是一種很好的建模工具。
引發熱議
美國圣達菲研究所的計算機與認知科學家Melanie Mitchell表示:
這項研究是一個有趣的原理證明,但這種訓練方法是否可以擴展到更大的數據集甚至圖像,還有待觀察。
德國奧斯納布呂克大學自然語言處理專家Elia Bruni表示:
這項研究可以使神經網絡更高效地學習,將減少像ChatGPT等所需的訓練數據量,并減少“幻覺”。
將系統性注入神經網絡是一件大事,它可以同時解決這兩個問題。
但也有網友指出:
人類的溝通是多樣且多層次的,可以從太多角度總結 ,所以有必要持合理的懷疑態度,同時還需要證據和測試結果。
還有網友表示用這種方法能夠擊敗GPT-4是因為提示的問題:
我覺得一名高級的提示工程師使用GPT-4可以達到正確率85%的效果?!案鶕芯咳藛T如何呈現任務,準確率在42%到86%之間”這話確實會讓人產生疑慮。
考慮到主觀因素,希望他們能展示是如何提出這個任務的,至少比只給一句話要詳細。
論文鏈接:https://www.nature.com/articles/s41586-023-06668-3。
參考鏈接:
[1]https://www.nature.com/articles/d41586-023-03272-3。
[2]https://news.ycombinator.com/item?id=38017146。