成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="ms2ae"></rt>

<li id="ms2ae"></li><li id="ms2ae"><dl id="ms2ae"></dl></li>

<li id="ms2ae"></li>

<center id="ms2ae"><acronym id="ms2ae"></acronym></center>

<button id="ms2ae"><source id="ms2ae"></source></button>

<li id="ms2ae"></li>

<li id="ms2ae"></li>

<li id="ms2ae"><dl id="ms2ae"></dl></li>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集

mb5f8eba9bdb0af

發(fā)布于 2024-3-27 10:32

瀏覽

0收藏

引言

在自然語言處理（NLP）的眾多應用場景中，大型語言模型（Large Language Model, LLM）展現(xiàn)了其卓越的文本理解與生成能力，不僅在傳統(tǒng)的文本任務上成績斐然，更在生物學、計算化學、藥物研發(fā)等跨學科領域證明了其廣泛的應用潛力。盡管如此，生物分子研究領域的特殊性—比如專用數(shù)據(jù)集的缺乏、數(shù)據(jù)標注的高復雜度、知識的多元化以及表示方式的不統(tǒng)一—仍舊是當前面臨的關鍵挑戰(zhàn)。針對這些問題，本文提出Mol-Instructions，這是一個針對生物分子領域各項研究任務定制的指令數(shù)據(jù)集。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions的構建

Mol-Instructions的構建流程如下：

借助LLM的能力，生成多樣化的任務描述，模擬人類需求和表達的多樣性。
采用多種預處理策略，將現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)轉化為可用的指令數(shù)據(jù)。
利用模版將結構化的功能注釋轉換為易于理解的文本。
對小分子和蛋白質序列進行嚴格的質量控制，以排除化學無效和冗余的序列。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions概覽

Mol-Instructions數(shù)據(jù)集共計含2043K條指令數(shù)據(jù)，覆蓋了小分子、蛋白質以及生物分子文本三大領域的17個關鍵任務，包含了不同復雜度和結構的生物分子及豐富的文本描述。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

小分子指令：深度探索小分子的固有屬性與行為，研究化學反應和分子設計的核心挑戰(zhàn)。理解和預測小分子的化學特性，優(yōu)化分子設計，提高化學反應預測的準確性和效率。其目標是在化學和藥物設計領域加速藥物的研發(fā)進程，同時降低研發(fā)成本。
蛋白質指令：主要解決蛋白質設計和功能相關的問題。旨在預測蛋白質結構域、功能及活性，通過文本指令推動蛋白質設計。對于疾病的診斷、治療以及新藥的研發(fā)工作具有一定的價值。
生物文本指令：側重于生物信息學和化學信息學領域的自然語言處理任務。旨在從生物醫(yī)學文獻中提取和解析關鍵信息，支持研究人員快速獲取知識、便于進行查詢。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

圖(a-d)揭示了分子的多維特征。Bertz復雜度是評估分子復雜度的關鍵指標。分子量反映了分子的大小和復雜性，對眾多化學反應具有決定性影響。原子計數(shù)揭示了分子的規(guī)模和復雜度，進而影響其穩(wěn)定性和反應性。環(huán)計數(shù)則提供了結構復雜度和潛在穩(wěn)定性的視角，對理解化學反應性和生物活性潛力至關重要。圖(e-j)探究了蛋白質的特性。圖(e-g)體現(xiàn)了蛋白質序列長度的不同分布。根據(jù)NCBI分類，這些蛋白質覆蓋了豐富的物種和實驗菌株，包括13,563個蛋白質家族和643個超家族。圖(h-j)關注功能特征，如結構域、基因本體和催化活性的注釋。這些數(shù)據(jù)表現(xiàn)出顯著的長尾分布，凸顯了推斷特定蛋白質功能的挑戰(zhàn)，尤其是那些罕見功能的蛋白質。
如表格所示，分子設計和蛋白質設計的文本描述提供了多維度的視角，涵蓋從基本屬性到特定應用場景的廣泛特性。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

實驗分析

為評估Mol-Instructions對大型語言模型（LLMs）在理解和預測生物分子方面的助益，本文對LLaMA-7B模型進行了指令微調，并從多個角度進行了定量實驗分析。實驗結果顯示，經Mol-Instructions微調的LLM在多種任務上的表現(xiàn)超越了其他大型模型，證明了Mol-Instructions在提升LLMs處理生物分子信息能力方面的關鍵作用。然而，由于輕量微調過程的局限性，經過微調的LLM在分子生成任務上的表現(xiàn)并未超越現(xiàn)有的專用小型模型。這反映了LLM在追求廣泛任務處理能力時，可能會犧牲掉某些專用小模型的專業(yè)性。

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

Mol-Instructions: 面向大模型的大規(guī)模生物分子指令數(shù)據(jù)集-AI.x社區(qū)

總結

Mol-Instructions能夠有效評估和提升通用LLM從人類語言到生命語言的跨模態(tài)理解能力，顯著增強了LLM對生物分子的認知。為后續(xù)更深入地研究生物分子設計與解決復雜生物學問題提供了重要的數(shù)據(jù)來源。由于文本與生物分子表示空間的本質差異以及LoRA訓練策略的局限性，當前LLM在理解生物分子語言方面的熟練度還未能與其掌握人類語言的能力相媲美。未來，通過擴展模型詞表或將生物分子語言視為一種新的模態(tài)進行集成，可能是進一步提升LLM在生物分子領域的理解深度和性能表現(xiàn)的關鍵。

本文轉載自：??ZJUKG??

作者：方尹

標簽

自然語言處理

大型語言模型

已于2024-3-27 13:10:35修改

贊

收藏

回復

舉報

回復

相關推薦

HuggingFace放出規(guī)模最大、質量最高預訓練數(shù)據(jù)集

duhorse ? 3588瀏覽 ? 0回復
ChemBench：大語言模型化學能力評測數(shù)據(jù)集

戀戀青鳥 ? 4524瀏覽 ? 0回復
【LLM】提升大規(guī)模并行訓練效率的方法

sbf_2000 ? 4197瀏覽 ? 0回復
剖析大規(guī)模 GPU 集群：針對 LLM 場景的挑戰(zhàn)和優(yōu)化

amei2000go ? 5704瀏覽 ? 0回復
沒有標記數(shù)據(jù)集，如何做大模型指令微調？介紹一款有潛力的標記數(shù)據(jù)集生成模型

Syrupup ? 5865瀏覽 ? 0回復
AUTODETECT：面向大規(guī)模語言模型中自動弱點檢測的統(tǒng)一框架

AIRoobt ? 5450瀏覽 ? 0回復
Web2Code：適用于多模態(tài)大模型的大規(guī)模網頁轉代碼數(shù)據(jù)集與評估框架

sbf_2000 ? 4718瀏覽 ? 0回復
LLaMA 3 背后的大規(guī)模 GPU 集群 RoCE 網絡建設

amei2000go ? 4884瀏覽 ? 0回復
400萬樣本，數(shù)據(jù)才是AIGC的王道！UltraEdit：基于指令的細粒度圖像編輯數(shù)據(jù)集

angel ? 3384瀏覽 ? 0回復
Jamba-1.5：大規(guī)模混合Transformer-Mamba模型

sbf_2000 ? 3333瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練—張量并行

amei2000go ? 3509瀏覽 ? 0回復
大規(guī)模分布式 AI 模型訓練系列——流水線并行

amei2000go ? 4220瀏覽 ? 0回復
詳解大規(guī)模基礎模型中的幻覺問題（幻覺檢測、緩解、任務、數(shù)據(jù)集和評估指標）

angel ? 5207瀏覽 ? 0回復
PromptFix，新型擴散模型&大規(guī)模視覺指令數(shù)據(jù)集（羅切斯特大學&微軟）

angel ? 3269瀏覽 ? 0回復
3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI

angel ? 3570瀏覽 ? 0回復
詳解大規(guī)模基礎模型中的幻覺問題（幻覺檢測、緩解、任務、數(shù)據(jù)集和評估指標）

angel ? 5062瀏覽 ? 0回復
LLM合集：港大利用GPT-4o生成QA對，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 3159瀏覽 ? 0回復
大模型訓練之訓練數(shù)據(jù)準備，即怎么準備高質量的訓練數(shù)據(jù)集？

AI探索時代 ? 3760瀏覽 ? 0回復
軟件開發(fā)賽道正大規(guī)模應用AI：Anthropic 400萬對話大數(shù)據(jù)研究的啟示

凝固的雨_1 ? 1654瀏覽 ? 0回復

mb5f8eba9bdb0af

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

阿里、百度雙雙出手，大模型長文本時代終于到來？ 2024-03-28 10:18:48發(fā)布
關于AI落地“最后一公里”，這里有30條前沿洞察 2024-03-28 10:13:53發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：聊一聊生成式視角下的實體對齊

下一篇：基于知識圖譜的少樣本和零樣本學習綜述

社區(qū)精華內容

目錄

主站蜘蛛池模板：精品国产欧美一区二区三区成人 | 97avcc | 免费在线观看毛片 | 国产一区日韩在线 | 你懂的av| 久久国产精品视频观看 | 国产精品一区二区精品 | 成人一区二区三区在线观看 | 免费黄色成人 | 亚洲电影一区 | 精品国产91 | 2021天天干夜夜爽 | 天堂亚洲 | caoporn免费 | 国产99精品| 欧美精品在线一区二区三区 | 国产精品久久亚洲7777 | 一区二区三区欧美在线 | 欧美在线 | 欧美亚洲国产一区 | 国产精品视频久久久 | 国产成人艳妇aa视频在线 | 在线观看亚洲 | 99爱视频 | 日韩国产在线 | 超碰导航 | 亚洲精彩视频在线观看 | www久久 | 免费在线毛片 | 国产黄色在线 | 亚洲91av| 久久久国产一区二区三区四区小说 | 国产视频中文字幕 | 日韩超碰在线 | 日韩精品中文字幕一区二区三区 | 成人二区三区 | 一区二区免费在线观看 | 欧美电影免费网站 | 中文字幕日韩欧美 | 蜜桃在线视频 | 国产精品福利网站 |

<abbr id="6m2wm"><source id="6m2wm"></source></abbr>

<center id="6m2wm"><acronym id="6m2wm"></acronym></center>