推演大模型局限與發展脈絡
圖片
概括為:1、重整化從海量語料中提取出范疇,2、持續重整化驅動范疇解構重組結晶,3、生成過程于范疇中采樣做變分推理。
進一步,從這個數理原理出發,可以推演出大模型未來可能的發展脈絡,潛在的能力,以及可能的脆弱點,最近不少文獻分別印證了這幾點。
一、訓練語料的顆粒度、覆蓋面受限,無法囊括人類現有的所有知識,甚至都無法包含某個單一領域的完備的知識,重整化出來的內部世界模型的結晶可能是局部的,相對于完備的外部世界,存在眾多空洞缺失或不連貫性;
來自哈佛、MIT等學者,提出了評估生成模型中的世界模型的指標【文獻1】,研究表明,生成模型的世界模型遠不如看起來那么連貫。
這種不連貫性造成了脆弱性:使用生成模型來解決相關但略有不同的任務可能會導致失敗。構建有意義地捕獲領域的底層邏輯的生成模型將非常有價值。
二、目前預訓練無法做到動態、持續、實時,而且無法控制持續重整化結晶的對稱性破缺,因而結晶的范疇是滯后于當前時間狀態的,某種意義上看都是基于陳舊的信息看問題,無異于推理上的“刻舟求劍”;
生成擴散過程與統計力學概念有著深刻聯系。提升數據集規模和神經網絡容量,模型行為已知會從聯想記憶過渡到泛化,即玻璃態相變【文獻2】。
學者們利用統計力學技術,將生成擴散中的記憶理論擴展到支持流形的數據,理論和實驗結果表明,由于記憶效應,不同的切空間會在不同的臨界時間和數據集規模下丟失,取決于數據沿各個方向的局部方差。
在某些條件下,高方差的子空間會由于記憶效應而首先丟失,導致維度的選擇性喪失,其中數據的一些顯著特征被記憶下來,但并未完全收斂到任何單一訓練點。
三、采樣做變分推理的部分尤其薄弱,即使學到某些領域的豐富的知識,提煉成相當豐富的范疇,其采樣與變分推理還處在早期人工智能“煉丹”階段,提示工程、CoT、o1的強化學習推理,僅是“煉丹”方式不同。
斯坦福學者通過證明上下文學習(ICL)近似于貝葉斯學習器,來解釋上下文示例數量與模型預測準確性之間的相關性,稱為ICL 貝葉斯縮放定律【文獻3】。
模型實驗表明該縮放定律在準確性上達到SOTA,并為任務先驗、學習效率和每個樣本的概率提供了可解釋性,且能夠準確預測ICL越獄的條件,揭示了SFT/DPO安全對齊的無效性。
筆者闡述這些大模型的局限,不是推斷大模型不可用,而是指出其現實的實用價值方面的能力邊界,以及推演未來大模型可以努力提升的方向。
正如Meta公司FAIR團隊的研究【文獻4】,“Transformer破解百年三體難題,憑數學直覺找到李雅普諾夫函數” 所做的,大模型相關技術可以幫助人類實現某些專業領域的高維認知突破。
李雅普諾夫函數是評估系統穩定性的主要數學工具,是遞減的類似熵的函數,也可以理解為一個勢能函數。筆者覺得李雅普諾夫函數其實是最小能量函數(或最大熵)的基函數,找到多個基函數就可以表征完整的全局李雅普諾夫函數。
大模型可以幫我們發現更多嗎?比如今天Grok-3 被曝證明了黎曼猜想Riemann Hypothesis?!根據本文推演,即使證明是真的,人們也不用恐慌,訓練應該繼續。
文獻1 Evaluating the World Model Implicit in a Generative Model https://arxiv.org/html/2406.03689
文獻2:Losing dimensions: Geometric memorization in generative diffusion https://arxiv.org/html/2410.08727v1
文獻3:Bayesian scaling laws for in-context learning https://arxiv.org/abs/2410.16531
文獻4:Global Lyapunov functions- a long-standing open problem in mathematics, with symbolic transformers https://arxiv.org/html/2410.08304v1
本文轉載自 ??清熙??,作者: 王慶法
