馴服AI,更懂物理!何愷明團(tuán)隊提出全新DHN「去噪哈密頓網(wǎng)絡(luò)」
近日,何愷明團(tuán)隊提出了去噪哈密頓網(wǎng)絡(luò)(Denoising Hamiltonian Network,DHN),就像給物理知識開了掛。
傳統(tǒng)的機器學(xué)習(xí)方法雖然能處理一些簡單的物理關(guān)系,但面對復(fù)雜的物理系統(tǒng)時,卻顯得力不從心。
來自MIT、斯坦福、西北大學(xué)等的研究者將哈密頓力學(xué)算子推廣到神經(jīng)網(wǎng)絡(luò)中,不僅能捕捉非局部時間關(guān)系,還能通過去噪機制減輕數(shù)值積分誤差。
論文鏈接:https://arxiv.org/abs/2503.07596
現(xiàn)有的方法對相鄰時間步之間的局部關(guān)系進(jìn)行建模,這就像是只看到了樹木,卻忽略了整個森林。
這種局限性使模型在處理復(fù)雜物理系統(tǒng)時,難以把握系統(tǒng)的全局特征和高級別的相互作用。
另一方面,它們專注于正向模擬,而忽視了更廣泛的物理推理任務(wù)。
實際應(yīng)用中,往往還需要解決許多其他問題,比如從稀疏的觀測數(shù)據(jù)中推斷物理參數(shù),對不完整的軌跡進(jìn)行修復(fù),或者提高軌跡數(shù)據(jù)的分辨率等。
DHN:物理推理的創(chuàng)新引擎
DHN的出現(xiàn)突破了傳統(tǒng)機器學(xué)習(xí)在物理推理中的局限,它將哈密頓力學(xué)巧妙地推廣到神經(jīng)網(wǎng)絡(luò)。
哈密頓力學(xué)是經(jīng)典力學(xué)的一種重要表述形式,它通過哈密頓量來描述系統(tǒng)的能量和狀態(tài)變化。
DHN引入了塊式離散哈密頓的概念。它把系統(tǒng)狀態(tài)按照時間維度劃分為一個個狀態(tài)塊,每個狀態(tài)塊包含多個時間步的狀態(tài)信息。
通過這種方式,DHN可以捕捉到更長時間范圍內(nèi)的狀態(tài)關(guān)系,突破了傳統(tǒng)方法只能關(guān)注局部時間步的限制。
就像看一段舞蹈表演,不再是只關(guān)注每一個瞬間的動作,而是能夠連貫地看到舞者在一段時間內(nèi)的整體動作變化和節(jié)奏韻律。
塊式離散哈密頓
將狀態(tài)塊定義為沿時間維度連接的(p,q)狀態(tài)堆疊,即
其中b為塊大小。引入步長s作為一個可定義的超參數(shù),取代固定的時間間隔Δt。
這種方法使網(wǎng)絡(luò)能夠捕捉更廣泛的時間相關(guān)性,同時保持哈密頓結(jié)構(gòu)的不變性。
通過關(guān)聯(lián)兩個重疊的狀態(tài)塊(每個塊大小為b,偏移步長為s)來定義分塊離散哈密頓量:
下圖展示了一個塊大小b=4且步長s=2的分塊離散哈密頓量。經(jīng)典HNN可被視為塊大小b=1且步長s=1的特例。
類似于HNN,分塊離散哈密頓網(wǎng)絡(luò)可通過以下?lián)p失函數(shù)訓(xùn)練:
去噪機制
DHN的去噪機制是其一大亮點。
受到去噪擴散模型的啟發(fā),DHN在訓(xùn)練過程中會對輸入狀態(tài)添加不同程度的噪聲,然后通過網(wǎng)絡(luò)自身的學(xué)習(xí)能力,逐步去除這些噪聲,恢復(fù)出真實的物理狀態(tài)。
通過這種方式,DHN能有效減輕數(shù)值積分誤差,提高模型在長期預(yù)測中的穩(wěn)定性。不同的噪聲模式能讓DHN在各種噪聲條件下保持良好的適應(yīng)性。
不同掩碼模式
通過在訓(xùn)練過程中設(shè)計不同的掩碼模式,研究團(tuán)隊實現(xiàn)了靈活的推理策略,以適應(yīng)不同的任務(wù)。
圖中展示了三種不同的掩碼模式:
- 自回歸(autoregression):對塊的最后幾個狀態(tài)進(jìn)行掩碼,這類似于物理模擬中的前向建模,用于下一狀態(tài)預(yù)測。
- 超分辨率(super-resolution):對塊中間的狀態(tài)進(jìn)行掩碼,可用于數(shù)據(jù)插值。
- 任意階(arbitrary-order):包括隨機掩碼,掩碼模式可根據(jù)任務(wù)需求自適應(yīng)設(shè)計。
DHN網(wǎng)絡(luò)架構(gòu)
僅解碼Transformer架構(gòu)
對于每個哈密頓塊,網(wǎng)絡(luò)的輸入由不同時刻的堆疊以及
堆疊組成,同時引入一個全局潛在編碼z,用于對整個軌跡進(jìn)行條件控制。
僅解碼Transformer采用類似于GPT的僅解碼架構(gòu),但不包含因果注意力掩碼。
對所有輸入token應(yīng)用自注意力機制,將其作為長度為2b+1的序列處理。
其中,全局潛在編碼z作為查詢token,用于輸出哈密頓值。
DHN還將每個狀態(tài)的噪聲尺度編碼到位置嵌入中,讓網(wǎng)絡(luò)更好地感知噪聲對狀態(tài)的影響。
研究者實現(xiàn)了一個簡單的兩層Transformer,在單個GPU上就能高效運行。
自動解碼
為了高效地存儲和優(yōu)化系統(tǒng)特定的嵌入,DHN采用了自動解碼架構(gòu)。
與傳統(tǒng)的依賴編碼器網(wǎng)絡(luò)來推斷潛在編碼的方法不同,DHN為每個軌跡維護(hù)一個可學(xué)習(xí)的潛在編碼z。
這就好比為每個軌跡建立了一個專屬的「記憶庫」,在訓(xùn)練過程中,網(wǎng)絡(luò)權(quán)重和潛在編碼會聯(lián)合優(yōu)化,不斷地調(diào)整和完善這個「記憶庫」。
訓(xùn)練完成后,當(dāng)遇到新的軌跡時,只需凍結(jié)網(wǎng)絡(luò)權(quán)重,對新軌跡的潛在編碼進(jìn)行優(yōu)化,就能快速適應(yīng)新的情況。
實驗中的卓越表現(xiàn)
為驗證DHN的有效性,研究人員進(jìn)行了一系列實驗,涵蓋了多個不同的物理推理任務(wù)。
正向模擬
在正向模擬任務(wù)中,DHN需根據(jù)初始條件,逐步預(yù)測物理系統(tǒng)的未來狀態(tài)。
在單擺和雙擺系統(tǒng)中,通過在DHN塊內(nèi)應(yīng)用掩碼策略,讓模型學(xué)習(xí)預(yù)測未來狀態(tài)。
在擬合已知軌跡的實驗中,與傳統(tǒng)的HNN相比,DHN在預(yù)測單擺和雙擺的狀態(tài)時,誤差更小。
當(dāng)塊大小為2時,DHN能穩(wěn)定地守恒總能量,而HNN雖然是一個保證能量守恒的網(wǎng)絡(luò),但由于數(shù)值積分器的影響,仍然會出現(xiàn)不可控的能量漂移。
在對新軌跡進(jìn)行補全的實驗中,DHN同樣表現(xiàn)優(yōu)異。它能從稀疏的初始觀測中準(zhǔn)確地推斷系統(tǒng)動力學(xué),并預(yù)測未來狀態(tài)。
相比之下,HNN和其他沒有物理約束的基線模型在處理新軌跡時,誤差較大,難以準(zhǔn)確預(yù)測未來狀態(tài)。
表示學(xué)習(xí)
表示學(xué)習(xí)是評估模型對物理系統(tǒng)參數(shù)編碼和區(qū)分能力的重要任務(wù)。
DHN用隨機掩碼模式,利用去噪和隨機掩碼這兩種自監(jiān)督學(xué)習(xí)技術(shù),來增強在動態(tài)物理系統(tǒng)中的表示學(xué)習(xí)能力。
研究人員在雙擺系統(tǒng)上進(jìn)行實驗,預(yù)測擺長比。
通過對自動解碼器和代碼進(jìn)行預(yù)訓(xùn)練,然后用線性回歸層對潛在代碼進(jìn)行線性探測,結(jié)果顯示,DHN在學(xué)習(xí)表示物理屬性方面很出色。
與HNN和普通網(wǎng)絡(luò)相比,DHN的均方誤差更低,能夠更準(zhǔn)確地捕捉到物理系統(tǒng)的潛在特征。
研究還發(fā)現(xiàn),在雙擺系統(tǒng)中,塊大小為4是推斷其參數(shù)的最佳時間尺度。
下圖展示了不同塊大小和步長的DHN的結(jié)果。對于簡單的雙層Transformer,最佳的塊大小和步長約為,具有適度的重疊。
軌跡插值
軌跡插值是DHN展示靈活性的另一個重要任務(wù)。DHN用漸進(jìn)式超分辨率技術(shù),通過重復(fù)應(yīng)用2倍超分辨率來實現(xiàn)4倍超分辨率。
研究人員構(gòu)建了塊大小b=2、步長s=1的DHN塊,對不同稀疏度的軌跡進(jìn)行插值。
實驗結(jié)果表明,在處理與訓(xùn)練集初始狀態(tài)相同的軌跡時,DHN和基于CNN的方法都能取得較好的插值效果。
但在處理具有未見過初始狀態(tài)的軌跡時,CNN由于嚴(yán)重依賴訓(xùn)練分布,難以泛化,而DHN憑借其受物理約束的表示,能夠推斷出合理的中間狀態(tài),展現(xiàn)出了強大的泛化能力。
盡管DHN在物理推理領(lǐng)域取得了顯著的成果,但它也面臨著一些挑戰(zhàn)。
其中一個主要挑戰(zhàn)是計算成本較高,相比傳統(tǒng)Transformer,DHN需要更密集的梯度計算,這也限制了它的應(yīng)用范圍。
參考資料: