MIT設計深度學習框架登Nature封面,預測非編碼區DNA突變
盡管每個人類細胞都包含大量基因,但所謂的「編碼」DNA 序列僅占人類整個基因組的 1%。剩下的 99% 由「非編碼」DNA 組成,非編碼 DNA 不攜帶構建蛋白質的指令。
這種非編碼 DNA(也稱為調控 DNA)的一個重要功能是幫助打開和關閉基因,控制蛋白質的合成量。隨著時間的推移,細胞復制它們的 DNA 以生長和分裂,這些非編碼區域經常會出現突變——有時會調整它們的功能并改變它們控制基因表達的方式。這些突變大多是微不足道的,但有時可能會增加一些疾病風險,包括癌癥。
為了更好地了解此類突變的影響,研究人員一直在努力研究數學圖譜,這些圖譜使他們能夠查看生物體的基因組,預測哪些基因將被表達,并確定該表達將如何影響生物體的可觀察特征。在生物學中,這些圖譜被稱為「適應度地形(fitness landscape)」,大約在一個世紀前被概念化,以了解基因構成如何影響一種常見的有機體適應度,特別是繁殖成功率。
早期的適應度地形非常簡單,通常只關注有限數量的突變。現在有更豐富的數據集可以使用,但研究人員仍然需要額外的工具來表征和可視化這些復雜的數據。這種能力不僅有助于更好地理解單個基因如何隨著時間的推移而進化,而且還有助于預測未來可能發生的序列和表達變化。
近日,來自麻省理工學院和哈佛大學博德研究所等機構的研究者開發了一種新框架來研究調控 DNA 的適應度地形。該研究利用在數億次實驗測量結果上進行訓練的神經網絡模型,預測酵母菌 DNA 中非編碼序列的變化及其對基因表達的影響,登上了最新一期《自然》雜志的封面。
論文地址:https://www.nature.com/articles/s41586-022-04506-6
該研究還設計了一種以二維方式表示適應度地形的獨特方式,使其對于酵母以外的其他生物也能夠理解已有的實驗結果并預測非編碼序列的未來演變,甚至有望為基因治療和工業應用設計自定義的基因表達模式。
該研究的主要作者之一、MIT 生物學教授 Aviv Regev 說:「科學家們現在可以使用該模型解決一些進化問題或完成一些設想,例如以所需方式制作控制基因表達的序列。」
Aviv Regev
在這項研究之前,許多研究人員只是簡單地在自然界存在的已知突變上訓練他們的模型。然而,Regev 的團隊想要更進一步。他們建立了自己的無偏模型,該模型能夠基于任何可能的 DNA 序列,甚至是以前從未見過的序列,預測生物體的適應度和基因表達。研究人員將能夠利用這些模型來設計細胞,研發新藥,尋找包括癌癥和自身免疫性疾病在內的疾病新療法。
為了實現這一目標,麻省理工學院研究生 Eeshit Dhaval Vaishnav、哥倫比亞大學助理教授 Carl de Boer(論文共同一作)等人創建了一個神經網絡模型來預測基因表達。他們在一個數據集上訓練模型,并觀察每個隨機序列如何影響基因表達,該數據集是通過將數百萬個完全隨機的非編碼 DNA 序列插入酵母菌中生成的。他們專注于非編碼 DNA 序列的一個特定子集——啟動子,它是蛋白質的結合位點,可以打開或關閉附近的基因。
Regev 說,「這項工作表明,當我們設計新的實驗來生成正確的數據以訓練模型時,將會出現什么樣的可能性。從更廣泛的意義上說,我相信這些方法對許多問題都很重要,比如理解人類基因組中帶來疾病風險的調控區域的遺傳變異,以及預測突變組合的影響,或設計新的分子。」
Regev、Vaishnav、de Boer 和他們的合著者繼續以各種方式測試他們的模型的預測能力?!竸摻ㄒ粋€準確的模型當然是一項成就,但對我來說,這只是一個起點,」Vaishnav 解釋道。
首先,為了確定他們的模型是否有助于合成生物學應用,如生產抗生素、酶和食物,研究人員使用它來設計能夠為任何感興趣的基因產生所需表達水平的啟動子。然后,他們查閱了其他的科學論文,以確定基本的演化問題,看看他們的模型能否幫助解答這些問題。該團隊甚至還從一項現有研究中獲取了真實世界的種群數據集,其中包含了世界各地酵母菌株的遺傳信息。通過這些方法,他們能夠描繪出過去數千年的選擇壓力,這種壓力塑造了今天的酵母基因組。
但是,為了創造一個可以探測所有基因組的強大工具,研究人員需要找到一種方法,在沒有這樣一個全面的種群數據集的情況下預測非編碼序列的進化。為了實現這一目標,Vaishnav 和他的同事們設計了一種計算方法,允許他們將來自框架的預測繪制到二維圖上。這幫助他們以非常簡單的方式展示了任何非編碼 DNA 序列如何影響基因表達和適應度,而無需在實驗室工作臺進行任何耗時的實驗。
Vaishnav 解釋說:「之前,適應度地形中有一個未解決的問題,即沒有一種方法可以以一種有意義地捕捉序列進化特性的方式將它們可視化。我真的很想找到一種方法來填補這一空白,并為創造一個完整的適應度環境的長期愿景做出貢獻?!?/span>
愛丁堡大學醫學研究委員會人類遺傳學部門的遺傳學教授 Martin Taylor 表示,這項研究表明,人工智能不僅可以預測調控 DNA 變化的影響,還可以揭示支配數百萬年進化的潛在原則。
盡管該模型只在少數幾種生長條件下的一小部分酵母調節 DNA 上進行了訓練,但讓他印象深刻的是,這個模型竟然能夠對哺乳動物基因調控的進化做出如此有用的預測。
這項研究因其在設計生物 DNA 序列方面的重要影響而受到諸多關注,甚至在該研究正式發表之前,Vaishnav 就已經收到了一些研究人員的詢問,希望將該模型設計用于基因治療的非編碼 DNA 序列。
這項工作近期已經有了一些具體的應用,包括在釀造、烘焙和生物技術中為酵母自定義設計調控 DNA。
Martin Taylor 還評價稱:「這項工作未來有望幫助識別人類調控 DNA 中的疾病突變,這些突變目前在臨床上很難找到并且在很大程度上被忽視了。這項工作表明,在更豐富、更復雜和更多樣化的數據集上訓練的基因調控 AI 模型有著光明的未來。」