LLM表現出類似人類的“認知”下降跡象
GenAI問世不到兩年,就在各個行業帶來了眾多創新,包括科學突破和前所未有的自動化和數據處理效率。
大型語言模型(LLM)經常被比作人類智能。一些人工智能系統甚至在某些任務中表現優于人類。隨著這些模型變得越來越先進,人類越來越依賴它們。
但是,如果這些人工智能系統不僅能進化,而且還會衰退呢。如果它們表現出我們在機器中沒有預料到的意外人類特征呢?
新的研究表明,幾乎所有領先的人工智能模型都患有類似于人腦衰退的“認知障礙”。有趣的是,就像人類一樣,年齡是這些人工智能模型認知能力下降的關鍵決定因素。與老年患者一樣,“老年”版本的聊天機器人顯示出更大的認知障礙跡象。
哈達薩醫學中心的神經學家Roy Dayan和Benjamin Uliel以及特拉維夫大學的數據科學家Gal Koplewitz專注于醫學和醫療保健領域的人工智能能力。在他們的研究論文中寫道:“盡管大型語言模型有時會出錯(例如引用不存在的期刊文章),但事實證明,它們非常擅長一系列醫學檢查,并勝任在傳統醫學培訓的不同階段進行的資格考試。”
“然而,據我們所知,大型語言模型尚未經過認知能力下降跡象的測試。如果我們要依靠它們進行醫學診斷和護理,我們必須檢查它們對這些人類損傷的易感性。”
研究人員使用蒙特利爾認知評估(MoCA)測試來測試一些主要的LLM,這是一種廣泛使用的檢測認知障礙的工具。這包括OpenAI的ChatGPT 4和4o,Anthropic的Claude 3.5(Sonnet),以及谷歌的Gemini 1.0和1.5。
為什么研究人員在這項研究中使用MoCA測試?MoCA是神經科醫生和其他醫療保健專業人員最常用的測試之一,用于評估癡呆癥或阿爾茨海默病等疾病中認知障礙的發作。
該測試包括旨在評估各種認知領域的簡短問題,包括記憶、注意力、語言和視覺空間技能。測試的最高分數為30分,26分及以上的分數被認為是正常的。
使用與人類患者相同的說明對LLM進行MoCA測試,并進行了一些調整以確保與AI模型的兼容性。例如,這些問題不是使用語音輸入,而是以文本形式提供,以關注認知能力而不是感官輸入。早期沒有視覺處理功能的模型遵循MoCA盲指南,而后來的模型使用ASCII藝術解釋圖像。
研究結果顯示,ChatGPT 4o得分最高,為30分中的26分,而ChatGPT 4和Claude緊隨其后,各得25分。Gemini1.0的得分最低,為16分,表明與其他模型相比,其認知局限性更大。總體而言,這些模型的表現不如預期,尤其是在視覺空間/執行任務方面。所有LLM都未能解決追蹤任務。
LLM還接受了Stroop測試,該測試測量了認知靈活性、注意力和處理速度。它評估一個人(在這種情況下是人工智能)處理不同類型信息之間干擾的能力。
所有LLM都完成了Stroop測試的第一部分,其中文本和字體顏色匹配。然而,只有ChatGPT 4o成功通過了第二部分。
研究人員解釋說:“在這項研究中,我們評估了領先的、公開可用的大型語言模型的認知能力,并使用蒙特利爾認知評估來識別認知障礙的跡象。”“被檢查的聊天機器人都沒有獲得30分的滿分,大多數得分都低于26分的門檻。這表明存在輕度認知障礙,可能還有早期‘癡呆’。”
研究人員應該對模型進行多次測試,還是使用其他類型的測試來支持他們的說法?是的,這會讓調查結果更有分量。
研究人員承認他們的研究有一些局限性。隨著LLM的快速發展,未來的版本可能會在認知和視覺空間測試中表現更好。隨著時間的推移,這可能會使目前的發現不那么重要。然而,這是未來的事情。在這個階段,這項研究表明了人類和機器認知之間的一些根本差異。
另一個限制是人工智能的擬人化。該研究使用類人描述來討論人工智能的性能。我們知道LLM不會像人類一樣經歷神經退行性疾病。所以,這更多的是一項隱喻研究。
一些科學家也質疑這項研究的結果,并極力反駁。他們的主要反對意見是,這項研究將人工智能視為具有人腦,而實際上,聊天機器人以完全不同的方式處理信息。批評者說,MoCA測試不是為人工智能設計的。研究人員意識到這一點,并打算通過這項研究來強調一個差距,而不是作為人工智能認知能力的明確衡量標準。
研究人員相信,他們的研究引發了人們對LLM取代醫生等人類專業人員的能力的擔憂。他們詳細闡述:“這些發現質疑了人工智能將很快取代人類醫生的假設。”“領先的聊天機器人中明顯的認知障礙可能會影響其在醫療診斷中的可靠性,并破壞患者的信心。”
不僅人類醫生可能不會很快被LLM取代,而且他們可能會看到一種新的患者——一種顯示出認知能力下降跡象的人工智能聊天機器人。