《自然》重磅:微軟推出MatterGen ,AI 顛覆材料設計
剛剛,頂尖學術期刊《自然》(Nature)刊發了一項具有里程碑意義的研究成果:微軟研究院的研究團隊成功開發了一種名為MatterGen的全新擴散生成模型。MatterGen 的出現為材料科學的逆向設計開啟了一個全新的篇章,它不僅能夠生成覆蓋整個元素周期表、穩定且多樣的無機材料,而且能夠通過微調,精確地控制所生成材料的化學成分、對稱性以及包括磁性密度、力學性能、電子特性等在內的多種物理性質。
MatterGen的創新之處
MatterGen之所以能夠取得如此顯著的突破,源于其在模型架構和訓練方法上的多維度創新:
1. 定制化的擴散過程: 針對晶體材料的特殊性,MatterGen引入了一套定制化的擴散過程,該過程可以獨立地對原子類型、坐標和晶格進行擾動,并將其導向一個符合物理規律的隨機分布。這種方法在對晶體結構中的原子坐標進行擾動時,充分考慮了周期邊界條件,并通過縮放噪聲大小,來消除晶胞尺寸的影響,從而確保了擾動的合理性和有效性。對于原子類型,MatterGen采用了掩碼(mask)方法,使其向“未確定”狀態擴散,以便能夠生成新類型的結構。對于晶格,該模型采用對稱形式的擴散,使其趨向一個具有平均原子密度的立方晶格。
2. 等變性評分網絡: 為了逆轉上述擴散過程,MatterGen訓練了一個等變性評分網絡,該網絡能夠輸出原子類型、坐標和晶格的等變分數,從而無需直接從數據中學習對稱性,顯著提高了模型的效率和泛化能力。
3. 自適應模塊與微調: 為了控制生成過程,MatterGen 引入了自適應模塊,這些模塊可以插入到基礎模型中的每一層,并根據給定的性質標簽來調整模型的輸出。此外,研究人員還采用了分類器自由引導(classifier-free guidance)的方法,進一步引導生成過程朝向特定的目標性質。微調策略不僅能夠提升模型的表現,還能在標記數據量有限的情況下高效工作,這在材料科學領域至關重要,因為性質計算的成本往往非常高昂。
4. 大規模數據集訓練: MatterGen的卓越性能還得益于大規模、高質量的訓練數據集,即Alex-MP-20,它包含了來自Materials Project (MP)和Alexandria等數據庫的607,683個穩定結構,覆蓋了多種化學元素和晶體結構。通過如此龐大的數據集進行訓練,MatterGen能夠更好地理解晶體材料的規律,從而提高其生成穩定、多樣材料的能力。
MatterGen的性能評估與實驗驗證
為了驗證MatterGen的性能,研究人員進行了多方面的評估:
穩定性評估: 研究人員使用密度泛函理論(DFT)計算對MatterGen生成的結構進行了能量弛豫,并證明絕大部分結構的能量都接近于其局部最小值,表明了這些結構的穩定性。
多樣性評估: 研究結果顯示,即使生成數百萬個結構,MatterGen仍然能夠產生高度多樣性和獨特性,其發現新材料的能力遠超傳統方法。此外,MatterGen還能重新發現訓練數據中沒有的2000多個已知的實驗驗證結構,證明了其在材料發現方面的巨大潛力。
與現有模型對比: 通過與CDVAE, DiffCSP等先前先進生成模型進行對比,MatterGen顯著提升了S.U.N(穩定、獨特、新穎)材料的生成比例,同時顯著降低了生成結構與DFT弛豫結構之間的均方根偏差(RMSD),證明了MatterGen在生成穩定材料和逼近真實結構方面的優異性能。
化學成分引導: MatterGen 在目標化學系統中的表現也超越了傳統的替代法和隨機結構搜索(RSS)方法,能夠更加高效地生成在目標體系中處于能量凸包上的穩定結構,尤其是在成分復雜的五元體系中優勢更加顯著。
物理性質引導: MatterGen 能夠根據特定的磁性密度、帶隙和體積模量等物理性質進行微調,生成符合目標要求的材料,這也表明了 MatterGen 在逆向設計材料方面的強大能力,甚至能克服訓練數據分布中出現的極端值的問題。
多目標優化: 為了滿足更復雜的實際需求,MatterGen 可以針對多個性質同時進行優化,例如同時滿足高磁密度和低供應鏈風險的永磁材料。
實驗驗證: 作為概念驗證,研究團隊通過實驗合成了MatterGen設計的一種材料 (TaCr2O6 ),并測量了其楊氏模量,推導出其體積模量與MatterGen的預測值相差僅20%,這有力地證明了MatterGen的實際應用潛力。
寫在最后:
MatterGen的發布不僅僅是一項技術突破,它更代表著材料科學研究范式的轉變。研究團隊相信,MatterGen的卓越性能和廣泛適用性使其有潛力成為未來材料科學領域的核心工具。