阿斯利康利用基于PyTorch的算法發現新藥物
譯文【51CTO.com快譯】自2017年推出以來,Facebook的機器學習框架PyTorch已得到很好的利用,應用廣泛,從支持Elon Musk的自動駕駛汽車到驅動機器人耕種項目,不一而足。
現在制藥公司阿斯利康(AstraZeneca)透露了其內部工程師團隊如何利用PyTorch,同樣重要的是簡化和加快藥物發現。
阿斯利康的技術將PyTorch與微軟Azure機器學習相結合,可以梳理大量數據,對于藥物、疾病、基因、蛋白質或分子之間的復雜關系有一番新的了解。
這番了解可用于饋送給算法,算法進而可以為某種疾病推薦許多藥物靶標,供科學家在實驗室進行測試。
這種方法便于在藥物發現之類的領域取得巨大進展,迄今為止,該領域一直基于昂貴且耗時的反復試驗方法。
為了研制出對付某種疾病的新藥,科學家通常要在實驗室測試不同的蛋白質設計和組合,直至找到可行的解決方案,這就是為什么從藥物設計到準備上市需要10到15年的時間。另一方面,阿斯利康的算法可以更快地確定科學家應針對某種疾病尋找的十大藥物靶標。
將自動化應用于藥物發現尤其有用,因為科學家可以訪問以幫助開展研究的數據量每年急劇增長。分析每天越來越龐大的數據庫以了解它們如何為藥物發現提供信息,實際上成了一項超人才能完成的任務。
阿斯利康的機器學習工程師Gavin Edwards告訴ZDNet:“每年,可供研究人員使用的科學信息和數據的絕對量在增長。通過利用AI和機器學習工具(比如PyTorch和Azure),我們就能迅速提取、整合和解讀來自多個來源的信息,旨在比我們手動分析這些數據更迅速地得到更準確的科學結論。”
許多可用數據是非結構化文本,這時候PyTorch有了用武之地。Facebook開發的這個軟件包基于Python編程語言,是一種開源機器學習庫,尤其適用于在計算機視覺和自然語言處理(NLP)等領域處理密集數據科學任務的開發人員。
阿斯利康的NLP團隊使用PyTorch來定義和訓練生物醫學文本挖掘算法,這種算法可以遍歷數據,查找模式和趨勢,并最終確定可用信息的結構。
然后數據饋入到知識圖中,知識圖可以智能地將零星的信息連接起來,以便可以將每個數據點置于上下文中來研究。圖用起來就像信息網絡,不僅能反映每個數據的屬性(基因、蛋白質、疾病和化合物),還能反映不同類別之間的關系。
換句話說,知識圖全面地組織所有可用的科學數據。阿斯利康的工程師隨后利用微軟Azure機器學習的計算功能,使用知識圖來訓練向科學家推薦新藥物靶標的算法。
Edwards說:“我們將公共領域的研究和內部研究結合到對復雜信息輕松編碼的圖中。通過在此基礎上使用機器學習,我們可以訓練機器學習模型,這些模型可以推薦新穎的藥物靶標,并有助于為管道決策提供信息。”
對于在實驗室不懈地嘗試新藥物設計的科學家而言,用于藥物發現的推薦算法無疑聽起來可以節省大量時間。但是Edwards及其團隊還希望,他們在創建的知識圖可幫助研究人員找到新的聯系,探索新的路徑,并測試未經證實的理論,又不浪費太多時間。
可以縮小數點知識圖以便詳細查看問題的某個方面,也可以擴展知識圖以便提供跨不同研究分支的更廣泛視圖。因此,研究人員就能輕松獲得未利用的信息,這些信息可以為其項目帶來更多價值。
Edwards說:“我們的知識圖使研究人員可以提出有關基因、疾病、藥物和安全信息等方面的關鍵問題,幫助識別藥物靶標并確定優先級。而且,隨著我們的數據和知識越來越豐富,我們的圖會隨之龐大,這意味著每個新試驗都將得益于以前學到的知識。”
對于Edwards來說,這項技術的應用范圍可能很大。在全球疫情持續不斷的情況下,這無疑是個好消息。
原文標題:AstraZeneca is using PyTorch-powered algorithms to discover new drugs,作者:Daphne Leprince-Ringuet
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】