新AI模型提高與疾病相關基因組學的預測能力
為了了解DNA與疾病的關系,美國洛斯阿拉莫斯國家實驗室的科學家開發了第一個多模態深度學習模型EPBDxDNABERT-2,該模型能夠利用DNA“呼吸”,即雙螺旋結構自發打開和關閉,來確定轉錄因子(調節基因活動的蛋白質)之間的精確關系。該模型有可能幫助設計用于治療源于基因活性疾病的藥物。
與DNA鏈結合的轉錄因子蛋白的表示
洛斯阿拉莫斯國家實驗室研究員、該論文的第一作者Anowarul Kabir說:“轉錄因子有很多種,人類基因組的規模大得令人生畏。”“因此,有必要找出哪種轉錄因子與超長DNA結構上的哪個位置結合。我們試圖用人工智能,特別是深度學習算法來解決這個問題。”
基于DNA訓練的深度學習模型
DNA以相當于30億個英文字母的數量寫入每個人類細胞,為人類生命的生長和維持提供了藍圖。轉錄因子結合到DNA的某些部分并影響基因表達的調控:單個基因如何為細胞的發育和功能提供特定的指令。因為這種表達可以在疾病中表現出來,如癌癥,預測與特定基因位置結合的轉錄因子可能對藥物開發有影響。
研究小組使用的基礎模型是在DNA序列上訓練的。該團隊構建了一個DNA模擬程序,該程序捕獲了大量的DNA動態并將其與基因組基礎模型集成,從而產生了EPBDxDNABERT-2,該程序能夠處理染色體上的基因組序列,并將相應的DNA動態作為輸入。一個這樣的輸入-DNA呼吸,或DNA雙螺旋結構的局部和自發打開和關閉,與轉錄活性相關,如轉錄因子結合。
洛斯阿拉莫斯國家實驗室的研究員Manish Bhattarai說:“DNA呼吸特征與DNABERT-2基礎模型的整合大大增強了轉錄因子結合的預測?!薄拔覀儗NA編碼片段作為模型的輸入,并詢問模型是否在許多細胞系中與轉錄因子結合。這些結果提高了特定基因位置與許多轉錄因子結合的預測概率。”
使用Venado運行AI算法
該團隊在實驗室最新的超級計算機Venado上運行了他們的深度學習模型,Venado將中央處理單元與圖形處理單元相結合,以驅動人工智能功能。深度學習模型的工作方式類似于大腦的神經網絡,結合圖像和文本,揭示復雜的模式來生成預測和見解。
為了訓練模型,研究小組使用了690個實驗結果的基因測序數據,包括161種不同的轉錄因子和91種人類細胞類型。他們發現,EPBDxDNABERT-2顯著提高了660多種轉錄因子結合的預測,在一個關鍵指標上提高了9.6%。從受控環境中的實驗中提取的體外數據集的進一步實驗補充了自然界數據集,或直接從活體生物(如小鼠)研究中提取的數據。
研究小組發現,雖然單獨DNA呼吸可以幾乎準確地估計轉錄活性,但多模態模型可以提取結合基序,即轉錄因子結合的特定DNA序列,這是解釋轉錄過程的關鍵因素。
Bhattarai說:“正如它在多個不同數據集上的表現所證明的那樣,我們的多模態基礎模型表現出了多功能性、魯棒性(健壯性)和有效性?!薄霸撃P蜆酥局嬎慊蚪M學的重大進步,為分析復雜的生物機制提供了一種復雜的工具。”