谷歌云與 Ginkgo Bioworks 合作推出新型蛋白質大語言模型和應用程序接口
谷歌云加大與 Ginkgo Bioworks 的合作,兩家公司日前推出了兩項新產品。
第一項是推出一個蛋白質大語言模型,使業界的組織和公司能夠利用 Ginkgo 的專有見解和數據加快藥物發現過程。第二項是生物技術公司 Ginkgo 將推出一個模型應用程序接口(API),幫助機器學習工程師和科學家獲取生物學人工智能模型。
谷歌云戰略產業副總裁 Chris Sakalosky 和 Ginkgo 人工智能總經理 Ankit Gupta在接受記者采訪時討論了這一激動人心的更新。Gupta 表示,生物學在很大程度上已經從一門純物理學科轉變為一門計算學科。那些能夠理解、利用并從大量數據中提取有意義見解的方法和手段的人將最終取得成功。這正是 Ginkgo 生態系統的強大之處,因為 Ginkgo 生態系統提供了簡化工程所需的計算工具。Sakalosky 分享了他第一次與 Ginkgo 生物工程公司創始人 Jason Kelly見面時的見解,并討論了 DNA本質上可以被視為一種語言和代碼。如果創新者可以訓練人工智能理解對話、口語和計算機代碼,那么人工智能就沒有理由不能以同樣的方式理解和處理 DNA。這正是這個蓬勃發展領域的關鍵所在。
新的蛋白質大語言模型背后的前景令人振奮,因為該模型是在谷歌云Vertex人工智能平臺上構建的,其訓練基于 Ginkgo 的專有數據模型。該模型將使研究人員和企業能夠快速理解并利用自己的數據,進而為藥物發現帶來巨大的好處。此外,Ginkgo 公司提供的新應用程序接口可以訪問在蛋白質和 DNA 數據基礎上訓練的復雜模型。第一個模型是 ginkgo-AA-0-650m,是“一個基于超過20億個Ginkgo專有蛋白質序列訓練的大模型”。
為什么這些都很重要?
生物學、藥物研發、人工智能和先進工程學之間的融合從未像現在這樣緊密,原因是這些垂直領域之間存在大量相互促進的機會。這就是為什么各家公司都在迅速增加在這一領域的投資,競爭也非常激烈。以 Meta 的 ESM 宏基因組圖譜為例,該項目旨在“將數據集中的每個蛋白質表示為一個單獨的點,并在放大或懸停時顯示實際的蛋白質結構”。盡管該項目據報已經暫停,但截至2023年3月,該模型的可用蛋白質結構已接近7.72億個。同樣,Alphabet 旗下的 Isomorphic Labs 與 Google DeepMind合作,開發了業界領先的蛋白質模型 AlphaFold。其最新版本 AlphaFold 3 聲稱“與現有預測方法相比至少提高了50%”。
一項發表在《生物信息學前沿》期刊的研究強調了在蛋白質生物學和工程學中使用大語言模型的巨大潛力:“建模能力在不斷增強,預計將解決醫學和分子生物學中的一系列復雜問題……通過利用嵌入在深度神經模型參數中的‘聯結知識’。”
盡管在這個領域還有大量工作要做,各項工作才剛剛開始,但這項技術為生物科學與人工智能的結合提供了一個令人期待的前景。