成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Transformer的人工神經網絡,將有機結構的圖像轉換為分子結構

人工智能 新聞
來自 Skoltech 的初創公司 Syntelly 和莫斯科羅蒙諾索夫國立大學的研究人員開發了一種基于 Transformer 的人工神經網絡,可以將有機結構的圖像轉換為分子結構。

人類正在進入人工智能時代。化學也將被現代的深度學習方法所改變,這需要大量定性數據來進行神經網絡訓練。好消息是,化學數據「很好保存」。即使某種化合物最初是在 100 年前合成的,關于其結構、性質和合成方式的信息仍然與今天相關。 壞消息是,沒有公認的標準方法來呈現化學公式。化學家通常使用許多技巧以簡寫符號的方式來表示熟悉的化學基團。但化學家的個人習慣不同,慣例也會改變。對于計算機算法來說,這項任務似乎是不可逾越的。來自 Skoltech 的初創公司 Syntelly 和莫斯科羅蒙諾索夫國立大學的研究人員開發了一種基于 Transformer 的人工神經網絡,可以將有機結構的圖像轉換為分子結構。為了訓練這個網絡,開發了一個綜合數據生成器,它可以隨機模擬各種繪圖樣式、官能團、官能團占位符(R 基)和視覺污染。該研究以「Image2SMILES: Transformer-Based Molecular Optical Recognition Engine」為題,于 2022 年 1 月 11 日發表在《Chemistry–Methods》上。

化學結構識別面臨挑戰

多年來,文獻中發表了大量化學數據。不幸的是,在計算機時代之前,這些有價值的數據僅在紙質資源中出現。當前的挑戰是從這些來源中提取和挖掘這些數據。深度神經網絡的廣泛發展顯著提高了光學識別任務的性能。然而,圖形或弱結構信息識別一直是一個具有挑戰性的問題。一個常見的例子是化學結構的識別。首先,化學化合物的繪圖風格(原子標簽字體、鍵描繪風格等)在出版商之間沒有完全標準化。其次,化合物通常被繪制為馬庫什(Markush)結構:可以描述許多化合物的支架,馬庫什結構沒有通用的指導方針,這導致了各種各樣的 Markush 表示。此外,在某些情況下,化學論文的作者使用使用藝術風格來代表化學結構。

以藝術風格描繪的分子示例。

總而言之,識別化學結構和分子模板是一個具有挑戰性的問題,我們相信只有基于人工智能的工具才能解決這個問題。研究思路&方法Transformer 是谷歌團隊最初提出的用于神經翻譯的架構。然而,該架構及其修改在許多其他任務中表現出出色的性能,例如:在化學中,Transformer 被應用于有機反應結果的預測,SMILES 和 IUPAC 名稱之間的轉換。可以看出,基于 Transformer 的架構的性能通常高于基于 RNN 的方法。這一觀察促使研究人員實現了一個基于 Transformer 的引擎,用于光學識別化學結構。數據是機器學習的關鍵。然而,據我們所知,在化學文章上沒有帶有注釋對象的開放訪問數據集。獲得大型數據集的唯一方法是構建數據生成模型。該研究所提方法的新穎之處在于強烈關注數據生成方案,并且不僅可以處理有機結構,還可以處理分子模板,因此該方法可以用于實際數據。在這項工作中,為了訓練這個網絡,開發了一個綜合數據生成器,它可以隨機模擬各種繪圖樣式、官能團、官能團占位符(R 基)和視覺污染。PubChem 數據庫包含大約 1 億個分子。選擇 RDKit 作為自動繪圖工具。官能團和 R 基在大多數化學文獻中,作者繪制了帶有官能團和 R-基取代基的分子。為了生成具有此類取代基的分子,研究人員創建了 100 多個常見官能團的列表。將每個組描述為一個 SMARTS 模板。其增強算法隨機替換分子中的官能團以生成增強數據集。應該注意一些官能團是嵌套的。典型例子是:甲基 (-Me) 和甲氧基 (-OMe) 基團。研究人員設計了一種解析方法,以防止嵌套組重疊。

生成的具有官能團和 R 基團的分子示例。

研究人員實現了一種方法來生成具有 R 基在環中可變位置的圖像。

可變位置的 R 基示例。

如果環的取代基不超過兩個,則 R 基團(R、R1、R2、R'、R'')以 20% 的概率繪制在可變位置,但該算法對一個環進行一次替換,一個分子最多替換兩個。添加了一個虛擬鍵,使 RDKit 將基團放在環鍵的前面,然后使用 SVG 后處理將兩個鍵替換為單行。下面的例子給出了直觀的解釋。

在可變位置呈現 R 基。

官能團 SMILES在標準的 SMILES 中無法表示分子模板,在此設計了一種修改后的語法,將其命名為 FG-SMILES。這是標準 SMILES 的擴展,其中取代基或 R 基團可以寫成單個偽原子。如果取代基是官能團,FG-SMILES 可以通過替換相應的假原子直接翻譯成 SMILES。一個例子:SMILES: Cc1cc(C)c(-c2ccccc2)c(-c2ccc([N+](=O)[O-])cc2)c1FG-SMILES: [Me]c1cc([Me])c(-[Ph])c(-c2ccc([NO2])cc2)c1此外,FG-SMILES 符號允許描述可變的 R 基位置。添加 v 符號來表示芳族系統內的變量 R 基團。圖像增強當我們的模型在真實環境中運行時,它會從光學掃描中裁剪出一個區域作為輸入。然而,通常分子圖像會被其他細節污染,實驗表明,即使圖像中存在很小的污染也會破壞預測。為了解決這個問題,研究人員提出了一種模擬典型污染的污染增強算法。下圖給出了污染增強算法的一些結果示例。

污染增強算法生成的分子示例。

此外,研究人員還使用了在「albumentations」庫中實現的標準計算機視覺增強。模型架構Img2SMILES 模型的輸入形狀為 384x384。研究人員使用 ResNet-50 作為 CNN 塊。ResNet 模塊的輸出形狀為 2048x12x12。Transformer 解碼器的其他參數取自經典架構。

Img2SMILES 模型架構圖。

研究人員證明了基于 Transformer 的架構可以從發生器中收集化學見解。這意味著,有了 Transformer,人們可以完全專注于數據模擬,來構建一個好的識別模型。該光學識別引擎的網絡演示可在 Syntelly 平臺在線獲得,數據集生成的代碼可在 GitHub 上免費獲得。「我們的研究很好地證明了化學結構光學識別正在進行的范式轉變。雖然先前的研究主要集中在分子結構識別本身,但現在我們擁有 Transformer 和類似網絡的獨特能力,我們可以轉而致力于創建人工樣本生成器,模仿大多數現有類型的分子模板描述。我們的算法結合了分子、官能團、字體、樣式,甚至打印缺陷,它引入了一些額外的分子、抽象片段等。即使是化學家也有很難判斷該分子是直接來自真實的紙張還是來自發電機。」該研究的首席研究員,初創公司 Syntelly 的首席執行官 Sergey Sosnin 說。該研究的作者希望他們的方法將構成邁向人工智能系統的重要一步,該系統能夠「閱讀」和「理解」研究論文,達到高素質化學家的程度。

數據生成器 GitHub 地址:https://github.com/syntelly/img2smiles

論文鏈接:https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-08-25 13:13:58

神經網絡AI算法

2018-11-28 15:39:21

人工神經嵌入式SDK

2025-02-25 14:13:31

2022-06-16 10:29:33

神經網絡圖像分類算法

2018-07-03 16:10:04

神經網絡生物神經網絡人工神經網絡

2023-05-09 14:24:32

大數據人工智能

2020-07-03 08:45:26

神經網絡結構

2021-03-02 10:49:57

神經網絡數據圖形

2025-03-05 08:00:00

2017-07-07 16:15:21

圖像識別卷積神經網絡人工智能

2023-05-24 16:13:31

ChatGPT神經網絡

2020-11-12 18:53:34

代碼Transformer編程

2020-09-09 09:51:41

神經網絡DA技術感知器

2021-08-31 14:22:12

技術資訊

2025-02-19 15:12:17

神經網絡PyTorch大模型

2023-09-17 23:09:24

Transforme深度學習

2021-04-29 08:50:39

人工智能神經網絡技術

2022-10-11 23:35:28

神經網絡VGGNetAlexNet

2020-08-20 07:00:00

深度學習人工智能技術

2020-12-21 08:00:00

人工智能深度學習神經網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品视频一区二区三区在线观看 | 国产精品免费一区二区三区四区 | 日韩欧美视频免费在线观看 | 亚洲精品1区2区3区 91免费看片 | 九九国产在线观看 | 国产日韩欧美一区二区 | 久久久国产亚洲精品 | 久久久精品久 | 久久精品一 | 国产亚洲精品精品国产亚洲综合 | 一区二区三区四区电影视频在线观看 | 欧美色综合天天久久综合精品 | 国产精品久久久久久婷婷天堂 | 日日日日日日bbbbb视频 | 欧美日韩精品一区二区三区四区 | 91精品国产91久久久久久最新 | 亚洲精品乱码久久久久v最新版 | 久久久久国产精品一区二区 | 国产区在线观看 | 日韩精品一区二区三区 | 亚洲精品中文字幕在线观看 | 免费精品久久久久久中文字幕 | 99久久婷婷国产综合精品 | www.日韩 | 国产免费一区二区 | 久久午夜国产精品www忘忧草 | 日韩www| 久久精品视频网站 | 黄片毛片免费观看 | 亚洲精品日韩在线观看 | 一区二区三区免费 | 久久一区二区视频 | 国产成人高清 | 亚洲福利在线观看 | 亚洲91视频 | 久久综合九九 | 精品久久久久久久久久久久 | 国产精品成人一区二区三区 | 成人av一区二区三区 | 一区二区三区在线免费观看视频 | 精品不卡 |