機(jī)器學(xué)習(xí)發(fā)現(xiàn)自閉癥中“非編碼突變”的秘密
一項***研究表明,在自閉癥當(dāng)中,基因之間發(fā)生的自發(fā)突變擁有與固有基因相等的重要作用。
這項研究被發(fā)表在5月27日的《自然——遺傳學(xué)》當(dāng)中,這也是***項研究這些“非編碼”突變對自閉癥患者全基因組影響的研究。
過去三年當(dāng)中,眾多團(tuán)隊都在對自閉癥患者DNA的基因內(nèi)部以及不同基因之間關(guān)系進(jìn)行測序。然而,對基因之間數(shù)十萬種突變進(jìn)行分類則幾乎是一項不可能完成的任務(wù),特別是考慮到研究人員對這些基因片段本身就知之甚少。
此次新研究通過利用機(jī)器學(xué)習(xí)方法克服了這一挑戰(zhàn)。研究人員創(chuàng)建了一種算法,能夠預(yù)測特定的非編碼突變是否會產(chǎn)生某種基因表達(dá)。其根據(jù)每次突變的可能性為每個突變分配一個評分,用以表示其有害性程度。
論文聯(lián)合作者、新澤西州普林斯頓大學(xué)綜合基因組學(xué)教授Olga Troyanskaya表示,“其中采取的獨特方法在于,我們不僅僅是在計算突變,同時也利用基于深度學(xué)習(xí)的框架研究突變的影響。事實證明,基因突變也有重要與不重要之分,而且引發(fā)的效果也不盡相同。”
專家們表示,這項研究的優(yōu)勢在于其能夠觀察整個基因組中的自發(fā)性突變。
并未參與此項研究的芝加哥大學(xué)遺傳學(xué)助理教授Xin He表示,此前對非編碼突變的分析工作主要集中在特定區(qū)域,且通常是那些與基因***為接近的區(qū)域。
他指出,“在本次研究中,面向的則是全基因組,我們可以看到一個明確的區(qū)別性信號。這也代表著一種令人印象深刻的結(jié)果。”
約束性條件:
Troyanskaya的團(tuán)隊和她的同事們分析了來自1790個家庭的7097個全基因組,這些家庭都有一個孩子患有自閉癥,但同時父母以及至少一個兄弟姐妹則未罹患自閉癥。他們在自閉癥兒童當(dāng)中發(fā)現(xiàn)了成千上萬種自發(fā)性突變,但這些突變基本也出現(xiàn)在了未患自閉癥的兄弟姐妹當(dāng)中。他們創(chuàng)建的算法預(yù)測了突變破壞控制基因表達(dá)的基因組區(qū)域的可能性。
在此之后,該研究小組搜索了人類基因突變數(shù)據(jù)庫,檢查是否存在任何與醫(yī)學(xué)狀況有關(guān)的突變,或者其是否同樣出現(xiàn)在對照組當(dāng)中。他們匯總?cè)肯嚓P(guān)信息,以便為每一種突變生成影響評分。
研究人員發(fā)現(xiàn),自閉癥兒童的非編碼突變平均影響評分確實高于未患疾病的兄弟姐妹。
總體而言,此項分析表明,這種突變導(dǎo)致4.3%的患兒罹患自閉癥;相比之下,基因之內(nèi)的有害突變則占比5.4%。
該小組還評估了突變對于信使RNA(mRNA)的影響。集合RNA屬于基因與蛋白質(zhì)之間的中介。他們發(fā)現(xiàn),在自閉癥兒童當(dāng)中,破壞mRNA的突變比影響DNA的突變具有更大的實際影響。
并未參與此項研究的華盛頓州立大學(xué)斯波坎生物醫(yī)學(xué)院醫(yī)學(xué)科學(xué)助理教授Lucia Peixoto表示,“這是一項值得跟進(jìn)的有趣事實。我認(rèn)為很多研究人員并未把RNA處理視為自閉癥的一大重要因素。”
研究人員發(fā)現(xiàn),最接近自閉癥兒童高影響非編碼突變的基因往往具有直接影響腦組織的表達(dá)。
并未參與此項研究的英國牛津生物科學(xué)企業(yè)Genomics公司***科學(xué)官Jeffrey Barrett表示,“很高興看到有諸多證據(jù)支持這一觀點,即通過影響正在發(fā)育的大腦當(dāng)中的非編碼調(diào)控元素,確實有望解決自閉癥以及其它神經(jīng)發(fā)育障礙類疾病。”
鄰近基因也傾向于參與自閉癥中的病變過程,例如神經(jīng)元信號傳導(dǎo)或基因調(diào)控。這一途徑與編碼基因突變造成的破壞完全相同。
該小組還評估了高影響突變對培養(yǎng)細(xì)胞中基因表達(dá)的影響。他們發(fā)現(xiàn),在大多數(shù)情況下,突變似乎都改變了基因的實際表達(dá)。
這一名為DeepSEA的算法目前已可在線獲取。Troyanskaya及其同事正在將他們發(fā)現(xiàn)的方法應(yīng)用于患有其他疾病的個體全基因組研究,包括先天性心臟病。