科學(xué)家使用機器學(xué)習(xí)方法來破解晶體結(jié)構(gòu)的氧化態(tài)難題
化學(xué)元素幾乎構(gòu)成了物理世界的一切。截至 2016 年,人類已知的元素數(shù)量為 118 種,所有這些元素都能在掛在每個化學(xué)實驗室和教室內(nèi)的元素周期表中找到。元素周期表中的每個元素都以 1 個或者 2 個字母的縮寫出現(xiàn),例如“O”代表氧氣,“Al”代表鋁。
同時周期表上還會表明它們的原子序數(shù),這表明該元素的原子核中有多少質(zhì)子。質(zhì)子數(shù)是非常重要的,因為它還決定了有多少電子圍繞原子核運行,這基本上使元素成為它是什么,并使它具有化學(xué)性質(zhì)。簡而言之,原子序數(shù)是一個元素的身份證。
近日發(fā)表在《Nature Chemistry》的論文中,來自 EPFL 基礎(chǔ)科學(xué)學(xué)院的化學(xué)工程師在對元素周期表進行深入研究之后,發(fā)現(xiàn)了每個元素必須要報告的另一組關(guān)鍵數(shù)字:元素的氧化態(tài),也稱之為氧化數(shù)。簡單地說,氧化態(tài)描述了一個原子必須獲得或失去多少個電子,才能與另一個原子形成化學(xué)鍵。
領(lǐng)導(dǎo)這項研究的 Berend Smit 教授說:“在化學(xué)中,氧化態(tài)總是在一個化合物的化學(xué)名稱中報告。氧化態(tài)在化學(xué)基礎(chǔ)中發(fā)揮著如此重要的作用,以至于有些人認(rèn)為它們應(yīng)該被代表為周期表的第三維。一個很好的例子是鉻:在氧化態(tài) III 中,它是人體所必需的;在氧化態(tài) IV 中,它是極其有毒的”。
如果弄清某個元素的氧化態(tài)是非常直接的,但涉及到由多種元素組成的化合物時,事情就變得復(fù)雜了。Smit 教授說:“對于復(fù)雜的材料,實際上不可能從第一原理來預(yù)測氧化態(tài)。事實上,大多數(shù)量子程序需要金屬的氧化狀態(tài)作為輸入”。
目前預(yù)測氧化態(tài)的最先進技術(shù)仍然是基于 20 世紀(jì)初開發(fā)的一種叫做“鍵價理論”(bond valence theory)的東西,它根據(jù)組成元素的原子之間的距離來估計一種化合物的氧化態(tài)。但是這并不總是有效,特別是在具有晶體結(jié)構(gòu)的材料中。Smit 表示:“眾所周知,重要的不僅是距離,還有金屬復(fù)合物的幾何形狀。但考慮到這一點的嘗試還不是很成功”。
在這項研究中,研究人員能夠訓(xùn)練一種機器學(xué)習(xí)算法,按照氧化狀態(tài)對一組著名的材料--金屬有機框架進行分類。研究小組使用了劍橋結(jié)構(gòu)數(shù)據(jù)庫(一個晶體結(jié)構(gòu)庫),在材料的名稱中給出了氧化態(tài)。Smit 說:“該數(shù)據(jù)庫非常混亂,有許多錯誤,而且實驗、專家猜測和鍵價理論的不同變化被用來分配氧化態(tài)。我們假設(shè)化學(xué)是自我糾正的,因此,雖然在個人賬戶上有很多錯誤,但作為一個整體,社區(qū)會把它弄對”。
EPFL 的 Smit 小組的一名博士生 Kevin Jablonka 表示:“我們基本上做了一個機器學(xué)習(xí)模型,它抓住了化學(xué)界的集體知識。我們的機器學(xué)習(xí)不外乎是電視游戲‘誰想成為百萬富翁’?如果一個化學(xué)家不知道氧化態(tài),其中一條生命線就是問化學(xué)的觀眾他們認(rèn)為氧化態(tài)應(yīng)該是什么。通過上傳晶體結(jié)構(gòu)和我們的機器學(xué)習(xí)模型,是化學(xué)家的觀眾會告訴他們最可能的氧化狀態(tài)是什么”。