新研究發現 AI 無法讀懂模擬時鐘,還不能告訴你某天是周幾
5 月 17 日消息,根據外媒 LiveScience 今日報道,有些人類能輕松完成的任務,AI 卻無法勝任。譬如,AI 能編程、畫出逼真的圖像、生成接近人類語氣的文本,甚至在部分考試中取得不錯成績,但在日常生活中最基礎的“看鐘”“算日子”這類事情上,卻頻繁出錯 —— 要么讀不準指針位置,要么算不出星期幾。
研究人員在 2025 年“國際學習表征會議”( ICLR )上介紹了這項發現,有關的論文已經在 arXiv 上發布,目前尚未通過同行評審。
愛丁堡大學研究員、論文作者 Rohit Saxena 表示:“人類從小就能掌握時間與日歷概念,而 AI 在這方面的不足,是一個值得警惕的信號。”他指出,若要將 AI 應用于現實生活中對時間敏感的場景,比如排班、自動化流程或輔助技術,這類基本能力的缺陷必須解決。
研究團隊向多個具備圖文處理能力的大語言模型輸入了一組專門制作的時鐘與日歷圖像,受測模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。測試結果顯示,這些模型在判斷時鐘時間或推算日期星期的任務上,正確率都未超過一半。
Saxena 表示:“過去的 AI 訓練依賴大量帶標簽的例子,而讀時鐘需要的是空間推理。模型不僅要識別指針是否重疊,還要理解角度、分辨各種風格的表盤,比如羅馬數字或藝術化設計。這遠比單純識別‘這是一個時鐘’更復雜。”
日歷問題同樣難住了 AI。例如在“每年第 153 天是星期幾”這類問題上,錯誤率依然居高不下。研究顯示,AI 讀時鐘的正確率僅為 38.7%,判斷日歷的準確率更低,只有 26.3%。
Saxena 解釋道:“對傳統計算機來說,算術輕而易舉,但對大模型而言則不然。AI 并不執行算法,而是依靠從訓練數據中學到的模式來預測答案。”他指出,雖然 AI 有時能答對問題,但其推理過程缺乏一致性,也不基于固定規則,這正是研究所揭示的差距。
研究還揭示了另一個問題,即當 AI 的訓練樣本缺乏某類現象時,比如閏年或復雜的日歷規則,其表現往往更差。Saxena 表示:“即使模型了解‘閏年’這一概念,也不代表它們能將這個知識正確應用到具體的視覺判斷中。”
IT之家從報道中獲悉,研究強調了兩個方面的改進方向:一是訓練數據應包含更多具有代表性的示例;二是應重新審視 AI 如何整合邏輯推理與空間感知,尤其是在處理不常遇到的任務時。