成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集

發(fā)布于 2024-3-27 10:32
瀏覽
0收藏

引言

在自然語言處理(NLP)的眾多應用場景中,大型語言模型(Large Language Model, LLM)展現(xiàn)了其卓越的文本理解與生成能力,不僅在傳統(tǒng)的文本任務上成績斐然,更在生物學、計算化學、藥物研發(fā)等跨學科領域證明了其廣泛的應用潛力。盡管如此,生物分子研究領域的特殊性—比如專用數(shù)據(jù)集的缺乏、數(shù)據(jù)標注的高復雜度、知識的多元化以及表示方式的不統(tǒng)一—仍舊是當前面臨的關鍵挑戰(zhàn)。針對這些問題,本文提出Mol-Instructions,這是一個針對生物分子領域各項研究任務定制的指令數(shù)據(jù)集。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions的構建

Mol-Instructions的構建流程如下:

  • 借助LLM的能力,生成多樣化的任務描述,模擬人類需求和表達的多樣性。
  • 采用多種預處理策略,將現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)轉化為可用的指令數(shù)據(jù)。
  • 利用模版將結構化的功能注釋轉換為易于理解的文本。
  • 對小分子和蛋白質序列進行嚴格的質量控制,以排除化學無效和冗余的序列。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions概覽

Mol-Instructions數(shù)據(jù)集共計含2043K條指令數(shù)據(jù),覆蓋了小分子、蛋白質以及生物分子文本三大領域的17個關鍵任務,包含了不同復雜度和結構的生物分子及豐富的文本描述。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

  • 小分子指令:深度探索小分子的固有屬性與行為,研究化學反應和分子設計的核心挑戰(zhàn)。理解和預測小分子的化學特性,優(yōu)化分子設計,提高化學反應預測的準確性和效率。其目標是在化學和藥物設計領域加速藥物的研發(fā)進程,同時降低研發(fā)成本。
  • 蛋白質指令:主要解決蛋白質設計和功能相關的問題。旨在預測蛋白質結構域、功能及活性,通過文本指令推動蛋白質設計。對于疾病的診斷、治療以及新藥的研發(fā)工作具有一定的價值。
  • 生物文本指令:側重于生物信息學和化學信息學領域的自然語言處理任務。旨在從生物醫(yī)學文獻中提取和解析關鍵信息,支持研究人員快速獲取知識、便于進行查詢。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

  • 圖(a-d)揭示了分子的多維特征。Bertz復雜度是評估分子復雜度的關鍵指標。分子量反映了分子的大小和復雜性,對眾多化學反應具有決定性影響。原子計數(shù)揭示了分子的規(guī)模和復雜度,進而影響其穩(wěn)定性和反應性。環(huán)計數(shù)則提供了結構復雜度和潛在穩(wěn)定性的視角,對理解化學反應性和生物活性潛力至關重要。圖(e-j)探究了蛋白質的特性。圖(e-g)體現(xiàn)了蛋白質序列長度的不同分布。根據(jù)NCBI分類,這些蛋白質覆蓋了豐富的物種和實驗菌株,包括13,563個蛋白質家族和643個超家族。圖(h-j)關注功能特征,如結構域、基因本體和催化活性的注釋。這些數(shù)據(jù)表現(xiàn)出顯著的長尾分布,凸顯了推斷特定蛋白質功能的挑戰(zhàn),尤其是那些罕見功能的蛋白質。
  • 如表格所示,分子設計和蛋白質設計的文本描述提供了多維度的視角,涵蓋從基本屬性到特定應用場景的廣泛特性。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

實驗分析

為評估Mol-Instructions對大型語言模型(LLMs)在理解和預測生物分子方面的助益,本文對LLaMA-7B模型進行了指令微調,并從多個角度進行了定量實驗分析。實驗結果顯示,經Mol-Instructions微調的LLM在多種任務上的表現(xiàn)超越了其他大型模型,證明了Mol-Instructions在提升LLMs處理生物分子信息能力方面的關鍵作用。然而,由于輕量微調過程的局限性,經過微調的LLM在分子生成任務上的表現(xiàn)并未超越現(xiàn)有的專用小型模型。這反映了LLM在追求廣泛任務處理能力時,可能會犧牲掉某些專用小模型的專業(yè)性。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

總結

Mol-Instructions能夠有效評估和提升通用LLM從人類語言到生命語言的跨模態(tài)理解能力,顯著增強了LLM對生物分子的認知。為后續(xù)更深入地研究生物分子設計與解決復雜生物學問題提供了重要的數(shù)據(jù)來源。由于文本與生物分子表示空間的本質差異以及LoRA訓練策略的局限性,當前LLM在理解生物分子語言方面的熟練度還未能與其掌握人類語言的能力相媲美。未來,通過擴展模型詞表或將生物分子語言視為一種新的模態(tài)進行集成,可能是進一步提升LLM在生物分子領域的理解深度和性能表現(xiàn)的關鍵。

本文轉載自:??ZJUKG??

作者:方尹

已于2024-3-27 13:10:35修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品国产欧美一区二区三区成人 | 97avcc | 免费在线观看毛片 | 国产一区日韩在线 | 你懂的av| 久久国产精品视频观看 | 国产精品一区二区精品 | 成人一区二区三区在线观看 | 免费黄色成人 | 亚洲电影一区 | 精品国产91 | 2021天天干夜夜爽 | 天堂亚洲 | caoporn免费 | 国产99精品| 欧美精品在线一区二区三区 | 国产精品久久亚洲7777 | 一区二区三区欧美在线 | 欧美在线 | 欧美亚洲国产一区 | 国产精品视频久久久 | 国产成人艳妇aa视频在线 | 在线观看亚洲 | 99爱视频 | 日韩国产在线 | 超碰导航 | 亚洲精彩视频在线观看 | www久久 | 免费在线毛片 | 国产黄色在线 | 亚洲91av| 久久久国产一区二区三区四区小说 | 国产视频中文字幕 | 日韩超碰在线 | 日韩精品中文字幕一区二区三区 | 成人二区三区 | 一区二区免费在线观看 | 欧美电影免费网站 | 中文字幕日韩欧美 | 蜜桃在线视频 | 国产精品福利网站 |