首個國產版AlphaFold3發布!大分子預測精度超車,在線平臺即開即用,推理成本更是白菜價
來了,國內首個對標AlphaFold3的產品——
HelixFold3,來自百度智能云與百度螺旋槳團隊。
它在常規生物分子結構預測任務中實現了AlphaFold3媲美水平:尤其RNA分子和共價修飾場景中,精準度上持平或者實現了大幅超越。
△圖注,藍色為HelixFold3,黃色為AlphaFold3
還有抗原-抗體結構預測任務中,成功率提升至80%+,感覺可以直接拿來研究抗體結合機制的水平。
更關鍵的一點是,它把使用門檻和成本給打下來了——
支持在線服務,用戶只需簡單開通,按算力付費(相當于是ChatGPT按照Token付費)。
全程零代碼操作,也無需擔心后續運維。
而且推理速度還很快,數小時完成數千次分子結構預測的那種。
背后的團隊來自百度智能云及螺旋槳團隊。
可能不為一些人所熟知的是,他們在生命科學領域深耕已久,此前其自研的mRNA序列優化算法LinearDesign登上《Nature》。
這還是國內首家科技企業,登頂世界頂級期刊。
國產模型硬剛AlphaFold3
此次國產模型HelixFold3的發布,技術突破本身的同時,更展現了其強大的應用屬性。
首先,能力方面全面對標AlphaFold3,并且實現部分超越。
以最為常見的RNA分子預測、抗原-抗體結構預測兩大核心場景為例,這兩大場景都有助于下游的藥物設計、疾病治療等研發。
在RNA分子預測這一任務中,在CASP 15 RNA數據集上的評測結果顯示,HelixFold3的預測精度顯著超越了AlphaFold3。
同時在從PDB數據庫收集的最新蛋白-RNA復合物結構預測任務中,也展現出更高的準確性。
此外,在多個涉及共價修飾的結構預測任務中,實現基本持平以及超越。
而在抗原-抗體結構預測任務中,HelixFold3在最新的71例PDB抗原抗體結構預測的數據上精度已能媲美AlphaFold3server。
通過指定任意數量的抗原表位氨基酸,HelixFold3在抗原抗體結構預測的精度進一步得到提升,在任意指定15個表位氨基酸的數量后,HelixFold3的成功率進一步提升至80%以上。
其次,在線服務平臺即開即用,場景應用豐富。
我們都知道,日常中的高精度生物分子結構預測工具,即便像全面開源的AlphaFold3,往往也有較高的使用門檻,需要用戶具備較高的技術能力。
現在能夠看到,網站上已經支持了不少功能,整個過程全程都零代碼,還支持可視化呈現。
比如像支持大分子,包括蛋白質、DNA和RNA的任意側鏈修飾。輸入分子實體之后,旁邊就有配體結構展示。
在設置一些參數約束,比如指定修飾基團和連接位點之類,剩下的工作交給HelixFold3。
最終就能得到一個3D結構和相應的參數結果,移動光標還有清晰的點位解釋。
相比于AlphaFold3僅支持46種預定義修飾,HelixFold3通過SMILES去定義側鏈修飾所能覆蓋的化學空間更廣,覆蓋PDB數據庫中超過50%的修飾場景。而AlphaFold3僅支持不到5%,相當于修飾場景擴大十倍。
這樣一來,大幅度地擴展了給生命科學從業者們的研究空間,像什么小蛋白/多肽發現、酶改造等等這些具體應用都可以覆蓋到。
而除了在線服務,他們也支持API調用,通過API SDK的方式進行批量的推理,做大規模的分析。
最后也是最為硬核的一點就是,用它的話,推理成本可以大大降低,直接讓高通量生物信息學應用處理能力UP。
現在通用語言的大模型都在講推理成本,生命科學領域其實挑戰更為嚴峻。
生命語言不僅涉及多模態數據的融合,還涉及在三維空間中進行精準建模,這對計算資源提出了極高的要求。通常情況下,從業者不得不自行購置、部署和維護昂貴且復雜的計算資源,進一步增加了科研成本和技術門檻。
借助百度智能云CHPC平臺,通過MSA檢索與模型推理方面的性能優化,讓推理成本大大降低——在數小時內完成數千次精確的生物分子結構預測,大幅提高了從業者的研究速率。
還有一個更為通俗的例子,在百度云平臺上,一條500長度的蛋白推理只需要4元錢。相比于云端租用或者自行部署GPU這種動輒上萬乃至百萬的成本來看,確實已經低了一個指數級別。
對于從業者來說,你只需提供你的Know-how,剩下的都由HelixFold3幫你算。
現在,他們已經在與一些科研機構/CRO藥企進行合作,比如去驗證濕實驗落地的可能性。
傳統流程上,非常大通量的濕實驗需要好幾個月才能鎖定候選分子,但現在只需要計算就可以做到初步篩選,然后再拿高潛力的分子去做濕實驗,這樣整個研發節奏都有大大的提升。
生命科學迎來大模型應用時代
前幾個月,AlphaFold斬獲諾獎,如今HelixFold3以低門檻但性能完全不輸的形態亮相。大模型在生命科學領域,正在加速實現從技術到應用的跨越,邁向了新階段。
一方面體現在解決行業痛點上,大模型具備一些天然的優勢,加速傳統產業發展。
比如在藥物研發這個場景,行業長期面臨著一個「雙十困境」,即一款新藥研發需要耗時10年、耗資10億美元。
但現在隨著大模型發展,生物醫藥產業迎來了前所未有的機遇。這體現在藥物研發多個研發環節當中。
例如在虛擬篩選階段,通過大模型技術,可以從780萬個分子庫中快速篩選出6個潛在活性分子,效率相較于傳統人工篩選提升了成千上萬倍。
另一方面,更多更前沿的場景有望迎來革命性突破,像HelixFold3這種低門檻產品,會吸引更多跨學科人才參與到生命科學最前沿的課題當中。
此前曾探討過,通用大模型帶來的普遍價值是降本增效,而在生命科學領域,在降本增效這個基礎上,還有創新創造的價值。
比如基因編輯、個性化診療、合成生物學,乃至整個工業制造,包括農業、食品、化工、材料、能源等行業都有可能被賦能。
在這一浪潮中,百度這一實力玩家不容忽略,他們早已在生命科學領域深耕多年。
在此之前,他們還曾自主研發了文心生物計算大模型系列,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白結構分析模型HelixFold、以及單序列蛋白表征模型HelixFold-Single。
這些模型為虛擬篩選、ADMET預測、蛋白質結構預測、mRNA序列設計等提供了便攜強大的算法工具。
企業通過百度螺旋槳(PaddleHelix)生物計算平臺獲取相關服務。目前他們已與多家藥企展開深度合作,助力藥物研發管線的加速推進。
此外,百度智能云還構建了一整套完整的生命科學解決方案,覆蓋從藥物研發到下游診療場景的全鏈條。像首個產業界醫療大模型靈醫,目前正在加速醫療診療全流程的落地,進一步拓展了大模型在生命科學領域的價值邊界。
如今,百度HelixFold3重磅升級,不僅提升了模型的精度和效率,也更為行業帶來了更多可能性。
大模型在生命科學領域,會朝著更深更廣的方向探索。
平臺鏈接:
https://paddlehelix.baidu.com/
論文鏈接:
https://arxiv.org/pdf/2408.16975
更多詳情可戳閱讀原文了解更多~