DeepMind再迎挑戰者,ESM作者帶隊6個月超越AlphaFold 3,代碼權重全開源
距離AlphaFold 3亮相已經過去了4個月,但由于未公布代碼且限量訪問次數,我們對它的原理、機制和實際效用依舊知之甚少。
DeepMind團隊表示要等到發布6個月后,也就是今年11月才會開源。
前兩天3位牛津學霸放出的復現也僅僅完成了第一階段,目前只能預測蛋白質,還無法用于DNA、RNA等其他生命分子。
然而,AF3的各路「踢館者」正紛至沓來。
最近,一家名為Chai Discovery的初創公司發布了他們的最新模型Chai-1,能夠對蛋白質、小分子、DNA、RNA、共價修飾等進行統一預測。
原文地址:https://www.chaidiscovery.com/blog/introducing-chai-1
根據基準測試結果,Chai-1在藥物發現的相關任務中達到了SOTA水平,甚至超過了AlphaFold 3,以及Meta FAIR的前ESMFold團隊另起爐灶搞出的最新模型ESM3。
不僅性能好,Chai-1團隊還撰寫了一篇16頁的技術報告,并開源了模型權重和推理代碼,但僅限非商業用途。
論文地址:https://chaiassets.com/chai-1/paper/technical_report_v1.pdf
倉庫地址:https://github.com/chaidiscovery/chai-lab
開發者們可以選擇下載代碼、在本地運行或修改模型,也可以通過服務器在線調用。
https://lab.chaidiscovery.com/
這個open程度,讓人不禁回想起曾經既有代碼又有論文的AlphaFold 2。
模型發布后,HuggingFace的CEO還直接發出了在線邀請:不如在HF倉庫上也托管一份權重。
IBM大佬Alex Kaplan甚至把Chai-1的發布稱為「藥物發現的ChatGPT時刻」。
他表示,當下絕對是分子生物學的黃金時代,在可預見的未來,只需幾行代碼就能治愈所有疾病,而Chai-1或許就是AlphaFold之后我們朝著這個目標邁出的重要一步。
蛋白質領域的「原生多模態」
技術報告中提到,模型架構和訓練策略大體依照了AlphaFold 3的論文,但有一個關鍵區別:
他們使用截止到2021-01-12的所有數據,僅訓練了單個模型,而非針對不同的評估分別訓練,此外還添加了一些新的功能。
與大多數需要MSA(多重序列比對)的結構預測工具不同,Chai-1可以在沒有MSA的情況下以單序列模式運行,同時達到相近的性能。
除了利用序列信息,Chai-1也是一個「原生多模態模型」。
除了直接從序列信息進行建模的能力外,它還可以通過prompt接受新數據,例如實驗得出的結合袋(pocket)、接觸點(contact)和對接(docking)的約束條件。
這些約束條件能捕捉到復合物中不同物質在不同粒度上的相互作用信息,和結構模板提供鏈內距離的作用類似,但更注重提供鏈間距離的信息。
對比實驗中發現,提供約束條件后,甚至可以為模型性能帶來兩位數的提升(圖4A);但為了防止模型過于依賴約束條件導致過擬合,訓練時對這些特征采用了dropout。
比如表位的約束——即使只有少量的接觸點或結合袋殘基的信息,也能使抗體-抗原結構預測的準確率翻倍,讓AI在抗體工程中的角色變得更加實用。
根據DockQ上的可接受預測率基準,Chai-1能比基于MSA的AlphaFold-Multimer模型(67.7%) 更準確地折疊多聚體 (69.8%)。
這個結果,讓Chai-1成為第一個僅使用單序列信息、無需MSA搜索,就能以AlphaFold-Multimer水平預測多聚體結構的模型。
在PoseBusters基準上,僅給出蛋白質序列和配體化學成分的信息時,Chai-1對配體預測結果的RMSD(均方根偏差)成功率為77%,超過了AF3的76%。
成立半年,拿出頂級模型
發布Chai-1模型的Chai Discovery成立于今年3月,是一家AI生物初創公司,就在幾天前的9月9日完成了3000萬美元的種子輪融資。
這輪融資由Thrive Capital領投,OpenAI和Dimension Capital也參與其中,交易完成后,Chai Discovery的估值已升至1.5億美元。
目前Chai的員工數量還不到10人,但吸引了不少來自OpenAI、谷歌、Meta FAIR等頂尖機構的人才加入,大部分成員也曾是頭部藥物公司的AI負責人。
Chai Discovery團隊的舊金山辦事處
聯合創始人兼CEO Joshua Meier本科和碩士都畢業于哈佛大學計算機科學專業,此外還拿到了化學專業的學士學位。
他高中時就在美國計算機奧賽中拿到了金牌水平的名次,并涉足生物技術領域的創業,在OpenAI、谷歌、Meta FAIR、布羅德研究所(隸屬于MIT和哈佛)等機構都曾有豐富的研究和工作經歷。
2021年,在FAIR工作的Meier和團隊發表了一篇重要論文,創建了第一個Transformer架構的蛋白質語言模型ESM-1b,目前引用量已經達到1800+。
論文地址:https://www.pnas.org/doi/full/10.1073/pnas.2016239118
作者列表中,還有不少熟悉的名字,包括當時還在哈佛的Pika創始人郭文景(Demi Guo),以及FAIR曾經的ESM團隊成員Alexander Rives、Zeming Lin、Tom Sercu和Jason Liu。
根據LinkedIn信息,ESM團隊解散后,Alexander Rives、Zeming Lin和Tom Sercu已經去了初創公司EvolutionaryScale,他們前段時間也剛剛發布新模型ESM3。
創立Chai Discovery前,Meier還曾擔任生物技術公司Absci的首席人工智能官。
在種子輪中選擇跟投的Dimension Capital投資人Zavain Dar最近發表了一篇文章,對投資想法進行了闡述,并高度贊揚了Meier和他的團隊。
Zavain Dar表示,從2019年Meier先后入職Meta和OpenAI時,他們就非常關注Meier的工作。
短短幾個月內,Chai-1就能夠與業內財力雄厚、歷史悠久的企業所開發的產品平起平坐,這讓他們看到了,一個「短小精悍」的團隊可以在極短時間內做出多少成就。
在Zavain Dar的文章和Chai Discovery的博客中,都談到了當前階段開放技術成果的重要性。
雖然Chai-1已經取得了非常卓越的成就,但我們才剛剛站在起跑線上。
要將生物學「從科學轉變為工程」,還需要構建更成熟、更強調的基礎模型,用于預測和重編程生化分子間的相互作用。
Chai-1的團隊表示,他們堅信長期的獲勝策略需要透明度和開放實驗,當今的生物技術從業者就可以免費且輕松地應用這些前沿技術,將其轉化為藥物發現領域的實用價值。