成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AlphaFold3重磅開源,諾獎級AI顛覆世界!GitHub斬獲1.8k星,本地即可部署

人工智能 開源
六個月的爭議后,諾獎級AI AlphaFold3開源了。這個在蛋白質結構預測領域掀起波瀾的AI——期待它的開源推動更多科學家的大量創新。文后附有安裝和運行步驟詳解哦!

AlphaFold3源碼終于開放了!

六個月前,AlphaFold3橫空出世震撼了整個學術界。AlphaFold的開發人也憑借它在上個月贏得了諾貝爾化學獎。

圖片

然而,這個諾獎級AI的「不開源」一直引起學界的不滿。谷歌DeepMind只推出了一個免費研究平臺「AlphaFold Server」,而且該服務有每日的次數限制。相比于開源的AlphaFold2來說,這種使用方式缺失了很多自由度。

好在它現在終于開源了!開源后,生化醫藥的科學家們可以在本地部署AlphaFold3,極大地縮短了新藥、疫苗等研發進程。

現在,任何人都可以下載AlphaFold3軟件代碼并進行非商業使用,但目前只有學術背景的科學家可申請訪問訓練權重。

GitHub上的AlphaFold3開源項目代碼目前已斬獲1.8k星。

圖片

開源項目:https://github.com/google-deepmind/alphafold3

AlphaFold3的「效仿者」們

在過去的幾個月中,不少公司都依靠AlphaFold3論文中的偽代碼,爭相發布了各自受到AlphaFold3啟發的類似模型。

比如,獲得OpenAI投資的AI生物初創Chai Discovery,就在9月發布了用于分子結構預測的新型多模態基礎模型Chai-1,并附帶了一份技術報告,比較了Chai-1與AlphaFold等模型的性能。

圖片

官網地址:https://www.chaidiscovery.com/

另一家位于美國舊金山的公司Ligo Biosciences則發布了一個無使用限制的AlphaFold3版本。但它尚未具備完整的功能,比如模擬藥物和蛋白質以外分子的能力。

圖片

項目地址:https://github.com/Ligo-Biosciences/AlphaFold3

其他團隊也正在開發沒有使用限制的AlphaFold3版本:AlQuraishi希望在年底前推出一個名為OpenFold3的完全開源模型。這將使制藥公司能夠使用專有數據(例如結合不同藥物的蛋白質結構)重新訓練模型,從而有可能提高性能。

開源的重要性

過去一年里,許多公司發布了新的生物AI模型,這些公司對開放性采取了不同的態度。

威斯康星大學麥迪遜分校的計算生物學家Anthony Gitter對盈利性公司加入他的領域沒有異議——只要他們在期刊和預印本服務器上分享工作時遵循科學界的標準。

「我和其他人希望盈利性公司們也分享關于如何進行預測的信息,并以我們可以審查的方式發布AI模型和代碼,」Gitter補充道,「我的團隊不會基于無法審查的工具進行構建和使用。」

DeepMind科學AI負責人Pushmeet Kohli表示,幾種AlphaFold3復制品的出現表明,即使沒有開源代碼,該模型也是可復現的。

他補充說,未來他希望看到更多關于出版規范的討論,因為這一領域越來越多地由學術界和企業研究人員共同參與。

此前,AlphaFold2的開源推動了其他科學家的大量創新。

例如,最近一次蛋白質設計競賽的獲勝者使用該AI工具設計出能夠結合癌癥靶標的新蛋白質。

AlphaFold項目的負責人Jumper最喜歡的一個AlphaFold2創新,是一個團隊使用該工具識別出一種幫助精子附著在卵細胞上的關鍵蛋白。

Jumper迫不及待地想看到在分享AlphaFold3后出現這樣的驚喜。

安裝和運行

安裝AlphaFold3需要一臺運行Linux的機器;AlphaFold3不支持其他操作系統。

完整安裝需要多達1TB的磁盤空間來存儲基因數據庫(建議使用SSD存儲)以及一塊具有計算能力8.0或更高的 NVIDIA GPU(具有更多內存的GPU可以預測更大的蛋白質結構)。

經過驗證,單個NVIDIA A100 80 GB或NVIDIA H100 80 GB可以適配最多5120個token的輸入。在NVIDIA A100和H100 GPU上的數值準確性也已被驗證。

尤其是對于較長的目標,基因搜索階段可能會消耗大量RAM——建議至少使用64GB的RAM運行。

配置步驟:

1. 在GCP上配置機器

2. 安裝Docker

3. 為A100安裝NVIDIA驅動程序

4. 獲取基因數據庫

5. 獲取模型參數

6. 構建AlphaFold3 Docker容器或Singularity鏡像

獲取AlphaFold3源代碼

通過git下載AlphaFold3的代碼庫:

git clone https://github.com/google-deepmind/alphafold3.git

獲取基因數據庫

此步驟需要「curl」和「zstd」。

AlphaFold3需要多個基因(序列)蛋白質和RNA數據庫來運行:

- BFD small

- MGnify

- PDB(mmCIF格式的結構)

- PDB seqres

- UniProt

- UniRef90

- NT

- RFam

- RNACentral

Python程序「fetch_databases.py」可以用來下載和設置所有這些數據庫。

建議在「screen」或「tmux」會話中運行以下命令,因為下載和解壓數據庫需要一些時間。完整數據庫的總下載大小約為252GB,解壓后的總大小為630GB。

cd alphafold3  # Navigate to the directory with cloned AlphaFold3 repository.
python3 fetch_databases.py --download_destinatinotallow=<DATABASES_DIR>

該腳本從托管在GCS上的鏡像下載數據庫,所有版本與AlphaFold3論文中使用的相同。

腳本完成后,應該有以下目錄結構:

pdb_2022_09_28_mmcif_files.tar  # ~200k PDB mmCIF files in this tar.
bfd-first_non_consensus_sequences.fasta
mgy_clusters_2022_05.fa
nt_rna_2023_02_23_clust_seq_id_90_cov_80_rep_seq.fasta
pdb_seqres_2022_09_28.fasta
rfam_14_9_clust_seq_id_90_cov_80_rep_seq.fasta
rnacentral_active_seq_id_90_cov_80_linclust.fasta
uniprot_all_2021_04.fa
uniref90_2022_05.fa

獲取模型參數

訪問AlphaFold3模型參數需要向Google DeepMind申請并獲得授權。

數據管線

數據管線的運行時間(即基因序列搜索和模板搜索)可能會因輸入的大小、找到的同源序列數量以及可用的硬件(磁盤速度尤其會影響基因搜索的速度)而顯著變化。

如果想提高性能,建議提高磁盤速度(例如通過利用基于RAM的文件系統),或增加可用的CPU核心并增加并行處理。

此外,請注意,對于具有深度MSA的序列,Jackhmmer或Nhmmer可能需要超出推薦的64 GB RAM的大量內存。

模型推理

AlphaFold3論文的補充信息中的表8提供了在配置為運行在16個NVIDIA A100上時的AlphaFold3的無需編譯的推理時間,每個設備具有40GB的內存。

圖片

相比之下,該存儲庫支持在單個NVIDIA A100上運行AlphaFold3,具有80GB內存,并在配置上進行了優化以最大化吞吐量。

下表中使用GPU秒(即使用16個A100時乘以16)比較了這兩種設置的無需編譯的推理時間。該存儲庫中的設置在所有token大小上效率更高(提高至少2倍),表明其適合高吞吐量應用。

圖片

硬件要求

AlphaFold3正式支持以下配置,并已對其進行了廣泛的數值準確性和吞吐量效率測試:

- 1 NVIDIA A100(80GB)

- 1 NVIDIA H100(80GB)

通過以下配置更改,AlphaFold3可以在單個NVIDIA A100 (40GB) 上運行:

1. 啟用統一內存。

2. 調整model_config.py中的pair_transition_shard_spec:

pair_transition_shard_spec: Sequence[_Shape2DType] = (
      (2048, None),
      (3072, 1024),
      (None, 512),
  )

雖然數值上準確,但由于可用內存較少,因此與NVIDIA A100 (80GB) 的設置相比,該配置的吞吐量會較低。

雖然也可以在單個NVIDIA V100上使用run_alphafold.py中的--flash_attention_implementatinotallow=xla來運行長度最多為1280 token的AlphaFold3,但此配置尚未經過數值準確性或吞吐量效率的測試,因此請謹慎操作。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-23 12:59:45

2023-03-28 15:40:00

開發開源

2020-09-24 20:45:54

AI

2023-10-04 19:52:33

模型論文

2024-05-09 11:08:22

2017-06-29 11:10:42

MWC電信級云平臺

2025-04-16 09:03:27

2024-06-03 07:30:00

2023-03-07 13:31:45

模型泄漏

2024-07-22 08:38:00

2021-09-24 18:36:48

數據平臺傳輸

2024-10-18 15:30:00

2011-06-30 16:33:15

OperaOpera Mini

2023-06-01 16:56:50

AI女友

2021-11-18 20:36:49

數字化

2015-10-29 10:22:06

Threshold 2更新Windows 10

2015-09-08 17:21:06

Cocos v2.3.骼動畫觸控科技

2021-04-09 16:25:00

GitHub代碼開發者

2018-03-05 10:24:37

蘋果iOS 11.3降頻
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产伦精品一区二区三区高清 | 欧美精品一区二区三区在线播放 | 国产精品美女久久久久久免费 | 伊人春色成人网 | 我要看免费一级毛片 | 91精品国产91久久久久久三级 | 久久久久国产 | 日韩欧美二区 | 亚洲一区二区三区在线免费 | 二区国产| 天天操天天干天天曰 | 亚洲精选一区二区 | 九九热在线视频免费观看 | 在线一区| 久久99国产精品 | 手机三级电影 | www.亚洲.com| 国产精品一区二区福利视频 | 一区二区在线视频 | 国产午夜精品一区二区三区在线观看 | 国产精品美女久久久久 | 婷婷在线免费 | 一级日批片 | 曰批视频在线观看 | 日韩一区二区视频 | 男人的天堂在线视频 | www.一级片 | 永久www成人看片 | 欧美成人免费 | 欧美成人综合 | 欧美一区二区在线观看 | 精品一区二区在线观看 | 国产精久久久久久久 | 日韩午夜一区二区三区 | 久久久久久久久91 | 亚洲精品国产成人 | 中文字幕 在线观看 | 成年人免费网站 | 欧美一区二不卡视频 | 在线国产中文字幕 | 色婷婷综合久久久中文字幕 |