顛覆蛋白結構預測的AlphaFold 2,改變了科學史
牛津大學教授Matthew Higgins正在與一個經典的令人頭痛的問題作斗爭:蛋白質到底是什么樣子的?
自2005年以來,他的實驗室就一直在關注于瘧疾的相關問題。
傳統技術只能生成蛋白質結構的模糊輪廓,這讓Higgins感到困惑。
不過,通過使用一種名為AlphaFold 2的新人工智能技術,他破譯了導致瘧疾的寄生蟲所使用的一種關鍵蛋白質的結構。
這項突破幫助他開發了一種實驗性瘧疾疫苗,目前正在進行人體測試。
瘧疾每年導致600多萬人死亡,而這些疫苗可能是對抗該疾病的關鍵。他說,如果沒有AlphaFold,我們可能仍在碰壁。
從Higgins的成就中不難看出,AlphaFold 2正在迅速顛覆科學和醫學。
在短短幾年內,Alphabet旗下的人工智能初創公司DeepMind已經從贏下圍棋比賽,成長到可以解決生物學的巨大挑戰,而現在它已經被超過100萬的研究人員使用,有大學的研究人員,也有大藥廠的研究人員。
DeepMind首席執行官Demis Hassabis去年在一個播客節目中說:「AlphaFold令人驚訝,但這只是一個開始」。
從贏下圍棋,到改變科學史
如今,蛋白質是幾乎所有藥物的主要靶點,因此了解蛋白質結構,是解決如何通過特定方式干預疾病表型的關鍵。
在AlphaFold之前,尋找蛋白質的結構是一項艱巨的任務。
傳統的方法是研究人員對蛋白質進行結晶,將其變成一種蛋白質很抵制的鹽分形式。如果這一步奏效,他們就用X射線轟擊每個晶體,觀察電子如何從它身上反彈以產生圖像。
通過反復進行這一過程,科學家們可以了解到一個蛋白質的3D結構。
Higgins說,一個博士生可能需要花一兩年的時間才能發現一種新的結構,但是結果往往是模糊、不確定的。
DeepMind首席執行官Demis Hassabis是一名國際象棋神童,也是人工智能的布道者。他于 2010 年創立了 DeepMind,目標是構建能夠像人類一樣執行某些任務的人工智能系統,甚至能夠比人類做得更好。
2016年,DeepMind的人工智能系統AlphaGo在圍棋比賽中擊敗了世界級棋手。
在圍棋勝利之后,Hassabis和DeepMind的頂級科學家David Silver決定,是時候從圍棋比賽,轉向解決現實世界的問題了。
于是他們開始轉攻蛋白質的問題,而生物學家John Moult數十年的工作為DeepMind進入生物學鋪平了道路。
1994年,他創辦了CASP 蛋白質結構預測大賽(Critical Assessment of Protein Structure Prediction)。
參賽者會被分到大約100個未知的蛋白的氨基酸序列,這些蛋白質的三結構已經是確定的但并未公布過。
參賽團隊將有幾個月的時間去研發和使用數學模型以解決這些未知的結構。Moult會對他們的預測進行準確性評分。滿分100,超過90就表明結構預測接近完美。
DeepMind在2018年的CASP會議上進行了首次公開嘗試。AlphaFold的第一個版本贏得了比賽并擊敗了世界標準。在比賽中,獲勝者的預測準確率通常為40%左右,而AlphaFold的成績是60%。
雖然這個成績讓人眼前一亮,但AlphaFold的預測有很多錯誤,還不夠完美。Hassabis 想做得更好。
在CASP結果公布前幾個月,AlphaFold背后的頂級科學家之一John Jumper正在與他的團隊一起規劃,想要對該技術進行漸進式的改進。
Hassabis 卻出人意料地叫停他們,大概意思是「用現在的模型解決這個問題是不是太難了?是不是做個別的模型?」
那次談話之后,Jumper就拋棄了AlphaFold的第一個版本,直接從頭開始。Jumper說,「AlphaFold 2是在對蛋白質有更多生物和物理知識的基礎上構建的。」
在2020年年底的CASP上,AlphaFold 2交出了答卷,預測蛋白質結構的準確率達到了近90%,遠遠高于其他參賽選手。專家們認為它有效地解決了這個問題。
「那一刻,我知道我們改變了科學史,」Jumper說。
生命科學領域的爆炸性增長
在CASP之后的幾個月里,DeepMind行動迅速。
該團隊在2020年圣誕節前后預測了人體中的所有2萬種蛋白質。這些結果于2021年7月與軟件的代碼一起發表在Nature的一篇開創性論文中,該論文已被引用超過8800次,也就是說每天約被引用15次。
Hassabis 說,決定免費發布AlphaFold 2是為了最大限度地造福人類。
據CNBC報道,DeepMind作為Alphabet的子公司,通過向Alphabet的其他公司,如YouTube和谷歌,出售軟件和服務來賺錢。
而后,Hassabis在2021年成立了生物技術初創公司Isomorphic Labs,潛心研究藥物。與此同時,AlphaFold 2也一直在運轉,在去年夏天發布了2億份蛋白質結構預測結果。
研究的步伐正在迅速加快。
根據生物醫學研究目錄PubMed的數據,2020年只有4篇論文參考了AlphaFold。這一數字在2021年增長到92篇,2022年增長到546篇。2023年將會有超過1000篇論文。
藥物研究的加速器
一些生物技術公司現在正在使用AlphaFold 2來開發藥物。
「AlphaFold向人們展示了可能性,從而引發了一波創新浪潮?!共ㄊ款D初創公司AI Proteins的首席科學家Chris Bahl說,該公司也使用AlphaFold幫助開發藥物。
在2019年,Raphael Townshend作為DeepMind實習生,在AlphaFold工作,當時他正在完成斯坦福大學的計算機科學博士學位。
現在,他在舊金山經營著一家名為Atomic AI的創業公司,希望開發他所謂的「RNA的AlphaFold」。
RNA讀取我們的遺傳(DNA)中的指令,在體內創造蛋白質。
他的公司想要預測RNA分子的結構,并且希望利用這些研究來開發藥物。其他生物技術公司也在將AlphaFold與其他AI技術結合使用,來快速、廉價地發現潛在的新藥。
例如,初創公司Insilico Medicine將自己的人工智能系統與AlphaFold一起使用,來設計可以阻斷與肝癌相關的蛋白質的分子。它創造了其中一個分子,并使用實驗室測試來確認它可以發揮作用。該公司在1月份發表了這項研究。
該公司的首席執行官Alex Zhavoronkov聲稱,他的團隊從找到藥物靶點到設計藥物并在實驗室進行測試,只花了大約50天,不到100萬美元,他認為這是藥物開發一個記錄。
Zhavoronkov的辦公室里放著Hassabis的照片,「AlphaFold是一個絕妙的發現,但它是一個巨大的樂高拼圖中的一部分,你需要擁有這個拼圖才能成功地將藥物投放市場。」
不過,雖然這項人工智能的技術讓藥物研發變得更加快速容易,但是由于臨床試驗的費用,該公司并不打算將其藥物推進人體研究,因為在動物和人類身上進行測試的過程仍然需要許多年和數億美元。
下一步是什么
人工智能在生物技術方面的潛力是有限的。
AlphaFold的預測并不總是完美的,這個預測模型在解決一小群未知蛋白質方面非常準確,但這并不能保證所有預測的結構都是正確的。
牛津大學的Higgins說,他自己會用實驗室的實驗來再次核查人工智能的預測,因此他對完全依賴于AlphaFold預測的研究論文持謹慎態度,因為其中缺少實驗驗證這一環。
盡管存在這些限制,但AlphaFold 2已是一項重大突破,甚至激起了諾貝爾獎的討論,尤其是在它贏得了2022年300萬美元的突破獎之后。
華盛頓大學計算機科學教授Pedro Domingos表示,AlphaFold團隊的研究是更深層次的,像是蛋白質如何與其他蛋白質或小分子相互作用,這樣問題是十分有意義的。
未來他們的研究會越來越難,也不清楚AI是否能夠勝任接下來的研究。但是Domingos認為,DeepMind的團隊非常優秀,所以他對其未來發展很是看好。
DeepMind已經在遺傳學和預測更復雜的蛋白質相互作用方面做出了一些研究,但是他們下一個瞄準的什么重大生物學問題還依舊保持神秘,并未透露,所以未來的其他機構、公司對它技術的應用也將「越來越難把握」。
DeepMind的Jumper表示,他的AlphaFold團隊專注于清除生物學研究中的下一個重大障礙。但這仍然是一個秘密。
「我有我的理論,關于這可能走向何方,這是什么樣的技術,以及未來可能的情況,我不會透露。」