譯者 | 崔皓
審校 | 孫淑娟
開篇
本文探討了TypeDB幫助科學(xué)家們實現(xiàn)醫(yī)學(xué)上的下一個突破,并且會通過指導(dǎo)性的代碼例子和視覺效果展示結(jié)果。
生物技術(shù)領(lǐng)域存在大量的炒作都集中于革命性藥物發(fā)現(xiàn)上。畢竟,過去十年是該領(lǐng)域的黃金時代。與之前的十年相比,2012年到2021年這段時間批準的新藥增加了73%--比之前的十年增加了25%。這些藥物包括治療癌癥的免疫療法、基因療法,當然還有科威德疫苗。從這些方面可以看出制藥業(yè)做得很好。
但其呈現(xiàn)的趨勢也越來越令人擔(dān)憂。藥物發(fā)現(xiàn)的成本和風(fēng)險正變得令人望而卻步。截至到當前,新藥推向市場的平均費用在10億至30億美元,平均時間在12至18年。同時,一種新藥的平均價格已經(jīng)從2007年的2千美元飆升到2021年的18萬美元。
這就是為什么許多人把希望寄托在人工智能(AI)(如統(tǒng)計機器學(xué)習(xí))上,以幫助加速新藥的開發(fā),從早期目標識別到試驗。雖然已經(jīng)利用各種機器學(xué)習(xí)算法確定了一些化合物,但這些化合物仍處于早期發(fā)現(xiàn)或臨床前的開發(fā)階段。人工智能徹底改變藥物發(fā)現(xiàn)的承諾仍然是令人興奮但尚未實現(xiàn)的承諾。
什么是人工智能?
為了實現(xiàn)這一承諾,理解人工智能的真正含義就顯得至關(guān)重要了。近年來,人工智能這個詞已經(jīng)成為相當熱門的詞匯,沒有多少技術(shù)含量。那么,什么才是真正的人工智能?
人工智能,作為一個學(xué)術(shù)領(lǐng)域,從20世紀50年代起就已經(jīng)存在了,隨著時間的推移,分支成各種類型,代表不同的學(xué)習(xí)方式。佩德羅-多明戈斯教授在《算法大師》一書中對這些類型進行了描述(他稱它們?yōu)?"部落"):連接主義者、符號主義者、進化主義者、貝葉斯主義者和模擬主義者。
在過去的十年里,貝葉斯主義者和連接主義者受到了公眾的廣泛關(guān)注,而符號主義者則不同。符號學(xué)派在進行邏輯推理的規(guī)則集的基礎(chǔ)上,創(chuàng)造出真實的世界表征。符號人工智能系統(tǒng)沒有其他類型的人工智能所享有的巨大宣傳,但它們擁有其他類型所缺乏的獨特而重要的能力:自動推理和知識表示。
對生物醫(yī)學(xué)知識的表現(xiàn)
事實上,知識表現(xiàn)的問題正是藥物發(fā)現(xiàn)中最大的問題之一。現(xiàn)有的數(shù)據(jù)庫軟件,如關(guān)系數(shù)據(jù)庫或圖形數(shù)據(jù)庫,很難準確地表示和理解生物學(xué)錯綜復(fù)雜的問題。
藥物探索所表述的問題很好地說明了要為不同的生物醫(yī)學(xué)數(shù)據(jù)源(如Uniprot或Disgenet)建立統(tǒng)一的模型。在數(shù)據(jù)庫層面,這意味著創(chuàng)建數(shù)據(jù)模型(有些人可能把這些稱為本體),描述無數(shù)復(fù)雜的實體和關(guān)系,如蛋白質(zhì)、基因、藥物、疾病、相互作用等之間的關(guān)系。
這就是TypeDB,一個開源的數(shù)據(jù)庫軟件,旨在實現(xiàn)的目標--使開發(fā)者能夠創(chuàng)建高度復(fù)雜領(lǐng)域的真實表現(xiàn),計算機可以利用它來獲得洞察力。
TypeDB的類型系統(tǒng)是基于實體關(guān)系的概念,代表了TypeDB中存儲的數(shù)據(jù)。這使得它足以捕捉復(fù)雜的生物醫(yī)學(xué)領(lǐng)域知識(通過類型推理、嵌套關(guān)系、超關(guān)系、規(guī)則推理等),使科學(xué)家獲得洞察力并加速藥物開發(fā)時間。
一家大型制藥公司的例子說明了這一點,該公司使用語義網(wǎng)標準為一個疾病網(wǎng)絡(luò)建模奮斗了五年多,但在遷移到TypeDB之后,僅用三周時間就成功實現(xiàn)了這一目標。
例如,一個用TypeQL(TypeDB的查詢語言)編寫的、描述蛋白質(zhì)、基因和疾病的生物醫(yī)學(xué)模型看起來如下:
關(guān)于一個完整的工作實例,可以在Github上找到一個開源的生物醫(yī)學(xué)知識圖。這是從各種著名的生物醫(yī)學(xué)資源加載數(shù)據(jù),如Uniprot、Disgenet、Reactome和其他。
有了存儲在TypeDB中的數(shù)據(jù),你可以運行查詢,問一些問題,如:哪些藥物會與SARS病毒有關(guān)的基因相互作用?
為了回答這個問題,我們可以使用TypeQL中的以下查詢。
運行這個將使TypeDB返回符合查詢條件的數(shù)據(jù)。并可以在TypeDB Studio中可視化,如下所示,這將有助于了解哪些相關(guān)藥物可能值得進一步調(diào)查。
通過自動推理,TypeDB也可以推斷出數(shù)據(jù)庫中不存在的知識。這是通過編寫規(guī)則來完成的,這些規(guī)則構(gòu)成了TypeDB中模式的一部分。例如,一個規(guī)則可以推斷出一個基因和一種疾病之間的關(guān)聯(lián),如果該基因編碼的蛋白質(zhì)與該疾病有關(guān)。這樣的規(guī)則將被寫成:
然后,如果我們要插入以下數(shù)據(jù):
TypeDB將能夠推斷出基因和疾病之間的聯(lián)系,即使沒有插入到數(shù)據(jù)庫中。在這種情況下,以下關(guān)系基因-疾病-關(guān)聯(lián)將被推斷出來。
通過機器學(xué)習(xí)加速目標探索
有了TypeDB對生物醫(yī)學(xué)數(shù)據(jù)(符號)進行表示,再加上機器學(xué)習(xí)的上下文知識就可以讓整個系統(tǒng)變得更加強大,從而增強洞察力。例如,可以通過藥物探索管道發(fā)現(xiàn)有希望的目標。
尋找有希望的目標的方法是使用鏈接預(yù)測算法。TypeDB的規(guī)則引擎允許這樣的ML模型執(zhí)行,該模型通過推理推斷對事實進行學(xué)習(xí)。這意味著從對平面的、無背景的數(shù)據(jù)學(xué)習(xí)轉(zhuǎn)向?qū)ν评淼?、有背景的知識學(xué)習(xí)。其中一個好處是,根據(jù)領(lǐng)域的邏輯規(guī)則,預(yù)測可以被概括到訓(xùn)練數(shù)據(jù)的范圍之外,并減少所需的訓(xùn)練數(shù)據(jù)量。
這樣一個藥物發(fā)現(xiàn)的工作流程如下:
1. 查詢TypeDB,創(chuàng)建上下文知識的子圖,利用TypeDB的全部表達能力。
2. 將子圖轉(zhuǎn)化為嵌入(embedding),并將這些嵌入到圖學(xué)習(xí)算法中。
3. 預(yù)測結(jié)果(例如,作為基因-疾病關(guān)聯(lián)之間的概率分數(shù))可以被插入TypeDB,并用于驗證/優(yōu)先考慮某些目標。
有了數(shù)據(jù)庫中的這些預(yù)測,我們可以提出更高層次的問題,利用這些預(yù)測與數(shù)據(jù)庫中更廣泛的背景知識。比如說:什么是最有可能成為黑色素瘤的基因目標,這些基因編碼的蛋白質(zhì)在黑色素細胞中如何表達?
用TypeQL寫,這個問題看起來如下:
這個查詢的結(jié)果將是一個按概率分數(shù)排序的基因列表(如圖學(xué)習(xí)者預(yù)測的):
然后,我們可以進一步研究這些基因,例如通過了解每個基因的生物學(xué)背景。比方說,我們想知道TOPGENE基因編碼的蛋白質(zhì)所處的組織。我們可以寫下面的查詢。
在TypeDB Studio中可視化的結(jié)果,可以顯示這個基因編碼的蛋白質(zhì)在結(jié)腸、心臟和肝臟中的表達:
結(jié)論
世界迫切需要創(chuàng)造治療破壞性疾病的解決方案,希望通過人工智能的創(chuàng)新建立一個更健康的世界,在這個世界中每種疾病都可以被治療。人工智能作用于藥物探索仍處于起步階段,但是如果一旦實現(xiàn)將會讓生物學(xué)釋放出新的創(chuàng)新浪潮,并使21世紀真正成為屬于它的紀元。
在這篇文章中,我們看了TypeDB是如何實現(xiàn)生物醫(yī)學(xué)知識的符號化表示,以及如何改善ML來為藥物探索做出貢獻的。在藥物探索中應(yīng)用人工智能的科學(xué)家們使用TypeDB來分析疾病網(wǎng)絡(luò),更好地理解生物醫(yī)學(xué)研究的復(fù)雜性,并發(fā)現(xiàn)新的和突破性的治療方式。
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。
原文標題:Artificial Intelligence in Drug Discovery,作者:Tomás Sabat