沿最優(yōu)輸運(yùn)方向的重整化可能是世界演化的核心方式
早在2014年,Mehta和Schwab就證明了“基于受限玻爾茲曼機(jī)(RBM)的深度模型和變分RG之間存在精確對應(yīng)”。深度網(wǎng)絡(luò)底層神經(jīng)元捕捉細(xì)節(jié),高層神經(jīng)元提取抽象特征,本質(zhì)上等同于RG中積分掉高頻自由度壓縮與粗化信息的過程。
2022年Erdmenger等學(xué)者引入相對熵、最優(yōu)輸運(yùn)(OT)等非微擾工具,來描述深度網(wǎng)絡(luò),證明多層神經(jīng)網(wǎng)絡(luò)的特征提取過程與RG的粗粒化步驟具有形式一致性。深度學(xué)習(xí)并非在模仿物理,而是在自然演化中與物理過程趨同。
圖片
沿最優(yōu)輸運(yùn)方向重整化
重整化群流作為最優(yōu)輸運(yùn),不僅確定了精確重整化群流的方程等效于場的相對熵的最優(yōu)輸運(yùn)梯度流,還巧妙的使用最優(yōu)輸運(yùn)的思想將重整化群轉(zhuǎn)化為變分問題。筆者進(jìn)一步總結(jié):
尺度變換的每一步,RG Flow 的流向,都將沿著最優(yōu)輸運(yùn)的方向進(jìn)行,也就是物理量的 RG Flow 尺度變換前的概率分布與尺度變換后的概率分布的距離最近的方向,而這就是Wasserstein 距離決定的方向。
Wasserstein 距離是概率分布空間上的距離度量,在最優(yōu)輸運(yùn)中起著核心作用,用于衡量兩個概率分布之間的距離。世界的不斷演進(jìn),都是冥冥中遵循最小化各種代價或成本的方式進(jìn)行,最優(yōu)輸運(yùn)某種意義上是自然演化的必然方向和準(zhǔn)則。
大模型數(shù)理認(rèn)知框架
筆者借鑒類似思想,構(gòu)建了大模型的數(shù)理認(rèn)知框架:1、重整化從海量語料中提取出范疇,2、持續(xù)重整化驅(qū)動范疇解構(gòu)重組結(jié)晶,3、于范疇中采樣變分生成,即逆重整化過程。這里的重整化,均沿最優(yōu)輸運(yùn)方向進(jìn)行。
圖片
數(shù)理框架的核心視角是將深度網(wǎng)絡(luò)的后續(xù)層看作沿著最優(yōu)輸運(yùn)方向的 RG 流。到目前為止,用這個數(shù)理框架來理解和解釋大模型的各種行為特征,分析預(yù)判相應(yīng)的技術(shù)與行業(yè)演進(jìn)方向,均表現(xiàn)健全且自洽。
自旋玻璃與重整化
數(shù)據(jù)雕刻自旋玻璃中筆者介紹過spin-transformer :一個可微的矢量自旋系統(tǒng),由數(shù)據(jù)驅(qū)動,其集體行為可以通過訓(xùn)練來塑造。這是一個高度自適應(yīng)的系統(tǒng),其中自旋交互形勢全景本身是由輸入動態(tài)塑造的。
自旋玻璃實(shí)際上不是玻璃,而是形象化比喻一個網(wǎng)絡(luò)狀的自旋系統(tǒng)。"玻璃"二字形容自旋方向的無規(guī)則分布,自旋玻璃的集體微觀無序到宏觀有序行為,天然適合用重整化描述。
一個由大量自由度描述的無序系統(tǒng),逐級尺度執(zhí)行粗粒度化操作,自由度子集被組合在一起平均,形成新的集體變量或隱變量。遵循成本最低原則即最優(yōu)輸運(yùn)的重整化,成為刻畫這些系統(tǒng)物理本質(zhì)特征的最佳方式。
圖片
自旋玻璃是自然界中眾多復(fù)雜體系的代表,在物理世界中無處不在、無時不有。研究清楚其特征和規(guī)律對認(rèn)知其他復(fù)雜體系可以觸類旁通,從構(gòu)建遷移學(xué)習(xí)的統(tǒng)計(jì)模型,到整合量子場論與愛因斯坦引力。
自旋玻璃角度看遷移學(xué)習(xí)
遷移學(xué)習(xí)(TL)使用從相關(guān)源任務(wù)獲得的信息來提高特定目標(biāo)任務(wù)的泛化性能。盡管經(jīng)驗(yàn)結(jié)果證明了TL功能強(qiáng)大,其理論基礎(chǔ)卻至今不夠清晰,尤其是在有限寬度的設(shè)定下,或者當(dāng)源與目標(biāo)任務(wù)在結(jié)構(gòu)上相關(guān)卻不完全相同時。
利用深度學(xué)習(xí)理論比例極限機(jī)制的最新進(jìn)展,結(jié)合自旋玻璃理論中經(jīng)典“Franz-Parisi ”形式、核重整化方法等統(tǒng)計(jì)力學(xué)的工具,最近的研究【文獻(xiàn)1】提出了一種新的TL理論方法。
在比例極限中,TL通過重整化的源-目標(biāo)核函數(shù)實(shí)現(xiàn)——該核函數(shù)量化任務(wù)間關(guān)聯(lián)性并決定TL是否能改善泛化性能,也就是精確量化TL何時或如何改善泛化能力,以及在什么條件下會變得無效甚至有害。
重整化彌合引力與量子場論
讀者或許了解,現(xiàn)代物理學(xué)兩大基石 - 量子場論與愛因斯坦引力理論之間存在根本性矛盾。量子理論描述微觀世界的概率性粒子相互作用,而廣義相對論詮釋宏觀物體的引力現(xiàn)象。將引力納入統(tǒng)一框架是幾代物理學(xué)家的夙愿。
量子場論運(yùn)用的是與量子場內(nèi)部自由度相關(guān)的緊致有限維對稱性,而廣義相對論則建立在非緊致無限維外部時空對稱性之上。【文獻(xiàn)2】試圖借助重整化加持的新型量子引力理論,利用緊致有限維對稱性推導(dǎo)引力規(guī)范。
在一個自洽的數(shù)學(xué)框架內(nèi),標(biāo)準(zhǔn)模型所有基本相互作用的量子場共同描述引力。論文給出了統(tǒng)一引力的費(fèi)曼規(guī)則,研究了一階項(xiàng)的可重整化性及輻射修正。等效原理要求慣性質(zhì)量與引力質(zhì)量的重整化值相等。
統(tǒng)一引力有望為構(gòu)建完整的、可重整化的量子引力理論奠定基礎(chǔ)。新理論通過"重整化"處理計(jì)算中出現(xiàn)的無窮大量,證明在"一階項(xiàng)"計(jì)算中有效,但高階項(xiàng)的有效性尚未完整證明。學(xué)者們相信成功概率很高,一旦成功,將是革命性的。
雖然論文沒有明確重整化的方向,其遵循的物理殼層重整化方案(On-Shell Renormalization Scheme)嚴(yán)格遵循自由粒子的質(zhì)量、能量和動量關(guān)系,因而筆者判斷其天然符合自然演化的規(guī)律,類似最優(yōu)輸運(yùn)的最小成本方向。
生成化學(xué)反應(yīng)過渡態(tài)的最優(yōu)輸運(yùn)方法
Nature上有一項(xiàng)來自化學(xué)反應(yīng)過渡態(tài)(TS:transition state)領(lǐng)域的有趣的研究【文獻(xiàn)3】 -- 用于生成化學(xué)反應(yīng)過渡態(tài)的最優(yōu)輸運(yùn)方法。讓我們驚訝于最優(yōu)輸運(yùn)在自然界的廣泛存在與意義。
化學(xué)反應(yīng)TS是瞬態(tài)結(jié)構(gòu),對于理解反應(yīng)機(jī)理和設(shè)計(jì)催化劑至關(guān)重要,但通過實(shí)驗(yàn)捕獲極具挑戰(zhàn)性。論文開發(fā)了基于最優(yōu)輸運(yùn)的方法React-OT,可從反應(yīng)物和產(chǎn)物生成獨(dú)特的TS結(jié)構(gòu)。筆者理解類似該領(lǐng)域的AlphaFold。
React-OT方法的核心創(chuàng)新在于將反應(yīng)物到產(chǎn)物的結(jié)構(gòu)轉(zhuǎn)換建模為最優(yōu)輸運(yùn)問題。通過流匹配(flow matching)技術(shù),構(gòu)建從反應(yīng)物分布到產(chǎn)物分布的確定性傳輸路徑,而過渡態(tài)恰好對應(yīng)于傳輸過程中"質(zhì)量"重新分配劇烈的臨界點(diǎn)(critical point)。
高階拉普拉斯重整化中探討過臨界點(diǎn)不穩(wěn)定,常常發(fā)生對稱性破缺,導(dǎo)致劇烈的相變。相變是重整化流中的特殊階段,是最劇烈和難以把控的部分,但從React-OT的效果可以推斷其同樣遵循最優(yōu)輸運(yùn)的方向。
這種視角將化學(xué)反應(yīng)動力學(xué)與概率分布的演化聯(lián)系起來。大規(guī)模預(yù)訓(xùn)練實(shí)際上是在構(gòu)建化學(xué)空間的基礎(chǔ)度量,即學(xué)習(xí)如何準(zhǔn)確衡量不同分子結(jié)構(gòu)之間的"距離"。這種度量決定了過渡態(tài)間傳輸成本函數(shù)的合理性,前景同樣堪比AlphaFold。
世界演化的核心方式
從微觀到宏觀,從物理變化彌合量子場論與引力,到化學(xué)反應(yīng)復(fù)雜劇烈的能量與物質(zhì)交換,重整化和最優(yōu)輸運(yùn)這兩個好搭檔,與自然現(xiàn)象相伴相生。物理變化化學(xué)反應(yīng)本質(zhì)并無差異,只是相變的時間尺度和劇烈程度的不同。
道生萬物的現(xiàn)代物理學(xué)解讀中筆者講萬事萬物不過是能量傳遞與演化的不同方式。重整化帶來不同的尺度,而最優(yōu)輸運(yùn)則決定演化的方向。
道生“能量”,能量“源”“匯”分布,產(chǎn)生“空間”;“源”“匯”的相互流動產(chǎn)生“時間”;能量流動的尺度和速度,決定不同的時空,也促成能量到“質(zhì)量”的轉(zhuǎn)換,從“波”到“粒子”。
能量在時空中流動,穿越邊界的通量變化,派生散度與旋度,即電場和磁場;波放慢速度鈍化成粒子(薛定諤的愛情與狄拉克的996),粒子構(gòu)成化學(xué)元素,元素物理變化或者化學(xué)反應(yīng)形成實(shí)物世界。自由能喂食生命體;能量分布的辨識產(chǎn)生信息;對信息的分尺度重整化即為認(rèn)知。獲取能量分布的局部認(rèn)知,進(jìn)一步推斷出原始整體分布,就是學(xué)習(xí)和智能。
文獻(xiàn)1,Statistical mechanics of transfer learning in fully-connected networks in the proportional limit,https://arxiv.org/html/2407.07168v1
文獻(xiàn)2,Gravity generated by four one-dimensional unitary gauge symmetries and the Standard Model,https://iopscience.iop.org/article/10.1088/1361-6633/adc82e/pdf
文獻(xiàn)3,Optimal transport for generating transition states in chemical reactions,https://www.nature.com/articles/s42256-025-01010-0
本文轉(zhuǎn)載自????????清熙????,作者:王慶法
