譯者 | 朱先忠
審校 | 重樓
中國和西班牙研究人員發表的一篇新論文發現,即使是像GPT-4.1這樣的先進多模態人工智能模型,也難以從模擬時鐘圖像中識別時間。時鐘中細微的視覺變化都可能導致嚴重的解讀錯誤,而微調也只對熟悉的示例有效。這一結果引發了人們對這些模型在現實世界任務中處理不熟悉圖像時的可靠性的擔憂。
當人類對某個領域(例如重力或其他基本物理原理)有了足夠深入的理解時,我們就能超越具體的例子,掌握其背后的抽象概念。這使我們能夠創造性地跨情境運用這些知識,并通過識別實際應用中的原理來識別新的實例,即使是那些我們從未見過的實例。
當一個領域足夠重要時,我們甚至可能在它并不存在的地方感知到它,就像空想性錯視一樣,其驅動力在于無法識別真實實例的高昂代價。這種模式識別的生存機制如此強大,以至于它甚至促使我們在沒有模式的地方尋找更廣泛的模式。
一個領域在我們心中灌輸得越早、越反復,它的基礎就越深,并且會持續一生;我們在兒童時期接觸到的最早的視覺數據集之一就是教學時鐘,其中印刷材料或交互式模擬時鐘被用來教我們如何看時間:
盡管手表設計時尚的變化有時會給我們帶來挑戰,但這種早期領域掌握的彈性令人印象深刻,即使面對復雜或“古怪”的設計選擇,我們也能辨別模擬鐘面:
高級定制腕表中的一些挑戰性面孔
人類不需要成千上萬的例子來了解時鐘的工作原理;一旦掌握了基本概念,我們幾乎可以識別任何形式,即使是扭曲或抽象的形式。
相比之下,人工智能模型在完成這項任務時面臨的困難凸顯了一個更深層次的問題:它們的表面實力可能更多地取決于大量的曝光,而不是理解。
超越模仿游戲?
在近期對大型模型的研究中,表面表現與真正“理解”之間的矛盾反復浮現。上個月,浙江大學和西湖大學在一篇題為《博士級LLM真正掌握初等加法嗎?》(非本文重點)的論文中重新闡述了這個問題,并得出結論:
“盡管基準令人印象深刻,但模型顯示出對模式匹配而非真正理解的嚴重依賴,這由符號表示的失敗和基本屬性的違反所證明。
明確的規則規定會損害性能,這表明存在固有的架構限制。這些見解揭示了評估方面的差距,并強調了對能夠進行超越模式識別的真正數學推理的架構的需求。”
本周,這個問題再次被提出,由南京航空航天大學和西班牙馬德里理工大學合作完成。這篇題為《多模態大型語言模型(MLLM)真的學會了在模擬時鐘上報時嗎?》的新論文探討了多模態模型對報時理解的程度。
盡管論文中僅詳細介紹了研究進展,但研究人員的初步測試表明,OpenAI的GPT-4.1多模態語言模型難以從多種時鐘圖像中正確讀取時間,即使在簡單的情況下也經常給出錯誤的答案。
這表明模型的訓練數據可能存在缺口,因此需要一個更均衡的數據集,以測試模型是否能夠真正學習其背后的概念。因此,作者整理了一個模擬時鐘的合成數據集,均勻地覆蓋了所有可能的時間,并避免了互聯網圖像中常見的偏差:
AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂-AI.x社區
研究人員合成模擬時鐘數據集中的一個示例,用于在新研究中微調GPT模型
在對新數據集進行微調之前,GPT-4.1一直無法讀取這些時鐘。然而,在接觸了新數據集一段時間后,它的表現有所改善——但前提是新圖像與它之前見過的圖像相似。
當時鐘的形狀或指針的樣式發生變化時,準確度會急劇下降;即使是很小的調整,例如更細的指針或箭頭(下圖最右邊),也足以使其偏離目標;此外,GPT-4.1還難以解讀達利風格的“融化時鐘”:
AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂-AI.x社區
標準設計的時鐘圖像(左)、變形的時鐘圖像(中)和修改后的指針圖像(右),以及GPT-4.1微調前后返回的時間
作者推斷,當前的模型(例如GPT-4.1)可能主要通過視覺模式匹配來學習讀鐘,而不是通過任何更深層次的時間概念,并斷言:
“當時鐘變形或指針變細并帶有箭頭時,GPT-4.1就會失效。在150個隨機時間上進行的時間估計中,初始時鐘的平均絕對誤差(MAE)為232.48秒,形狀變形時為1380.69秒,指針改變時為3726.93秒。
這些結果表明,MLLM并沒有學會看時間,而是記住了模式。”
足夠的時間
大多數訓練數據集依賴于抓取的網絡圖像,這些圖像往往會重復特定的時間——尤其是10:10,這是手表廣告中流行的設置:
從新論文中,我們可以看到模擬時鐘圖像中“十點十分”時間的流行情況
由于所描繪的時間范圍有限,模型可能只能看到狹窄范圍的時鐘配置,從而限制了其超越這些重復模式進行概括的能力。
關于模型為何無法正確解釋時鐘扭曲的問題,論文指出:
“盡管GPT-4.1在標準時鐘圖像上表現非常出色,但令人驚訝的是,通過使時鐘指針變細并添加箭頭來修改時鐘指針會導致其準確性顯著下降。
直觀地看,人們可能會認為視覺上更復雜的變化——扭曲的表盤——會對性能產生更大的影響,但這種修改似乎影響相對較小。
這就引出了一個問題:MLLM如何解讀時鐘,以及它們為什么會失敗?一種可能性是,較細的指針會削弱模型感知方向的能力,從而削弱其對空間方向的理解。
或者,當模型嘗試將時針、分針和秒針組合成準確的時間讀數時,可能會有其他因素造成混淆。”
作者認為,找出這些失敗的根本原因是推進多模態模型的關鍵:如果問題在于模型如何感知空間方向,微調可能會提供一個簡單的解決方案;但如果問題源于整合多種視覺線索的更大困難,那么這表明這些系統在處理信息的方式上存在更根本的弱點。
微調測試
為了測試模型的缺陷能否通過實踐克服,GPT-4.1在上述綜合合成數據集上進行了微調。在進行微調之前,它的預測結果非常分散,所有類型的鐘面都存在顯著的誤差。在對數據集進行微調之后,其在標準鐘面上的準確率顯著提高,而在變形鐘面上的準確率則有所提升(但幅度較小)。
然而,指針經過修改的時鐘,例如指針變得更細或變成箭頭狀,仍然會產生很大的誤差。
出現了兩種截然不同的故障模式:在正常和變形的時鐘上,模型通常會錯誤判斷指針的方向;但在指針樣式改變的時鐘上,它經常混淆每根指針的功能,將小時誤認為分鐘,或將分鐘誤認為秒。
這張對比圖展示了模型最初的弱點以及通過微調實現的部分改進,圖中顯示了150個隨機選擇的時鐘的預測時間與實際時間(以秒為單位)。左側是微調之前,GPT-4.1的預測結果比較分散,并且通常與正確值相差甚遠,紅色對角線表示正確值。右側是在平衡合成數據集上進行微調之后,預測結果與真實值更加接近,盡管仍然存在一些誤差。
這表明該模型已經學會將指針的厚度等視覺特征與特定角色聯系起來,并且在這些線索發生變化時會遇到困難。
對不熟悉的設計的有限改進進一步引發了人們的懷疑:這種模型是否學習了報時的抽象概念,或者僅僅是改進了其模式匹配。
指針類型
因此,盡管微調提高了GPT-4.1在傳統模擬時鐘上的性能,但它對指針較細或箭頭形狀的時鐘的影響要小得多,這增加了一種可能性,即該模型的失敗不是源于抽象推理,而是源于對哪根指針是哪根指針的混淆。
為了測試消除這種混淆后準確率是否會提高,研究人員對模型對“修改后的指針”數據集的預測進行了新的分析。輸出結果分為兩組:GPT-4.1正確識別時針、分針和秒針的情況;以及未能正確識別的情況。
在微調之前和之后,對預測的平均絕對誤差(MAE)進行評估,并將結果與標準時鐘的結果進行比較;還使用表盤位置作為基線測量了每個指針的角度誤差:
修改后的指針數據集中,微調前后有和沒有指針類型混淆的時鐘的誤差比較
混淆時鐘指針的角色會導致最大的誤差。當GPT-4.1將時針誤認為分針或將分針誤認為時針時,最終的時間估算結果往往相差甚遠。相比之下,錯誤判斷正確識別的指針方向所導致的誤差較小。在三個指針中,時針在微調前的角度誤差最大,而秒針的角度誤差最小。
在修改后的指針數據集中,經過微調之前和之后,對于有和沒有指針角色混淆的預測,指針類型的角度誤差。
為了僅關注方向性誤差,分析僅限于模型正確識別每個指針功能的案例。如果該模型已經內化了一般的報時概念,那么它在這些示例上的表現應該與在標準時鐘上的準確度相當。然而,它并沒有,準確度仍然明顯下降。
為了檢驗指針形狀是否會影響模型的方向感,研究人員進行了第二項實驗:創建了兩個新的數據集,每個數據集包含60個只有時針的合成時鐘,指向不同的分鐘刻度。一組數據集使用原始指針設計,另一組數據集使用修改后的版本。要求模型說出指針指向的刻度標記的名稱。
結果表明,修改后的指針識別準確率略有下降,但不足以解釋模型的整體缺陷。即使在之前表現良好的任務中,一個不熟悉的視覺特征似乎也足以擾亂模型的整體解讀。
GPT-4.1在標準、扭曲和修改后的時鐘上進行微調前后的性能,突出了不均衡的收益和持續存在的弱點。
結論
雖然這篇論文的重點乍一看似乎無關緊要,但視覺語言模型能否學會以100%的準確率讀取模擬時鐘,這一點其實也并不重要。這篇文章的真正意義在于它聚焦于一個更深層次的反復出現的問題:用更多(也更多樣化)的數據來填充模型,是否能夠獲得人類通過抽象和泛化獲得的那種領域理解;或者,唯一可行的途徑是否是向該領域注入足夠多的樣本,以便在推理過程中預測所有可能的變化。
這兩種方式都會引發人們對當前架構真正學習能力的懷疑。
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:AI’s Struggle to Read Analogue Clocks May Have Deeper Significance,作者:Martin Anderson