成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

12年博士研究,AI兩天爆肝完成!科研效率狂飆3000倍,驚動(dòng)學(xué)術(shù)圈

人工智能 新聞
AI兩天爆肝12年研究,精準(zhǔn)吊打人類!多大、哈佛MIT等17家機(jī)構(gòu)聯(lián)手放大招,基于GPT-4.1和o3-mini,篩選文獻(xiàn)提取數(shù)據(jù),效率飆3000倍重塑AI科研工作流。

多倫多大學(xué)、哈佛MIT等機(jī)構(gòu)聯(lián)手AI,短短2天內(nèi),竟干完了科學(xué)家12年的活!

研究一出,在全網(wǎng)掀起了巨震。

沃頓商學(xué)院CS教授Ethan Mollick大受震撼,「AI綜述論文體量越來越大,而準(zhǔn)確性超越了人類」。

圖片

17家研究機(jī)構(gòu)同著一篇論文,他們目標(biāo)直指,借助GPT-4.1和o3-mini自動(dòng)化系統(tǒng)綜述。

為此,研究人員設(shè)計(jì)了otto-SR平臺(tái),并在2天內(nèi),完成了為期12年的系統(tǒng)綜述研究。

圖片

論文地址:https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

結(jié)果顯示,otto-SR在所有任務(wù)中,比如篩查靈敏度、提取、篩選特異度方面,能夠媲美甚至超越人類。

在一項(xiàng)具體的測試中,復(fù)現(xiàn)并更新一期完整的Cochrane系統(tǒng)綜述,包含了12篇為臨床指南提供依據(jù)的綜述。

令人驚嘆的是,otto-SR識別出的相關(guān)研究數(shù)量(114篇),是原始綜述(64篇)的2倍之多。

圖片

這套AI工作流,讓系統(tǒng)綜述速度飆升3000倍。

這一速度與傳統(tǒng)人工流程相比,堪稱革命性突破。

圖片

otto-SR證實(shí)了LLM能以更高準(zhǔn)確率,自主執(zhí)行復(fù)雜的科研任務(wù)。未來,有望通過快速、可靠的系統(tǒng)綜述,為循證醫(yī)學(xué)帶來革命性變革。

人類免疫學(xué)家Derya Unutmaz教授認(rèn)為,這是一個(gè)非常了不起的成就。

AI取得如此驚艷的成果,究竟是如何做到的?

AI全新工作流:

GPT-4.1篩選,o3-mini提取

在循證醫(yī)學(xué)領(lǐng)域,系統(tǒng)綜述(Systematic Reviews)是科學(xué)決策的基石。

一般來說,傳統(tǒng)的系統(tǒng)綜述的完成,往往需要耗費(fèi)16個(gè)月,超10萬美金的成本。

更重要的是,系統(tǒng)綜述的延誤,可能導(dǎo)致低效甚至有害療法長期被使用,對患者來說是一場災(zāi)難。

全新otto-SR是一套基于大模型的「端到端」創(chuàng)新工作流。

如下圖1所示,不論是「全自動(dòng)」,還是「人機(jī)協(xié)同」,兩種綜述綜述模式均支持。

以下是otto-SR的核心模塊:

1 文獻(xiàn)篩選智能體

GPT-4.1作為獨(dú)立評審員,執(zhí)行摘要和全文篩選。原始檢索獲得的文獻(xiàn)以RIS格式上傳,系統(tǒng)即可高效處理。

2 數(shù)據(jù)提取智能體

由o3-mini-high執(zhí)行數(shù)據(jù)提取任務(wù),快速從文獻(xiàn)中提取關(guān)鍵變量。

3 PDF處理

通過Gemini 2.0 flash將PDF文件轉(zhuǎn)換為結(jié)構(gòu)化Markdown格式,便于后續(xù)分析。

摘要+全文篩選,趕超人類

在摘要篩選階段,otto-SR篩選智能體表現(xiàn)優(yōu)異。

其加權(quán)靈敏度高達(dá)96.6%(區(qū)間94.1-100.0%),顯著優(yōu)于Elicit(88.5%)和雙人評審組(87.3%)。

在特異度方面,雙人評審組以95.7%位居榜首,otto-SR篩選智能體(93.9%)緊隨其后,優(yōu)于Elicit(84.2%)。

這表明otto-SR在最大化捕獲相關(guān)文獻(xiàn)(真陽性)的能力上遠(yuǎn)超傳統(tǒng)方法,同時(shí)保持了較高的篩選準(zhǔn)確性。

在全文篩選階段,otto-SR篩選智能體繼續(xù)保持領(lǐng)先,靈敏度達(dá)96.2%(區(qū)間92.3-100.0%),而雙人評審組的靈敏度顯著下降至63.3%。

在特異度方面,otto-SR(96.9%)與雙人評審組(98.1%)均表現(xiàn)優(yōu)異,而Elicit因不支持全文篩選未參與比較。

綜合表明,otto-SR在保持高特異度(最小化誤納)的同時(shí),能夠捕獲更多相關(guān)研究(真陽性),相較于傳統(tǒng)雙人評審和商Elicit展現(xiàn)了顯著優(yōu)勢。

數(shù)據(jù)提取,刷爆準(zhǔn)確率

在七項(xiàng)系統(tǒng)綜述中,otto-SR數(shù)據(jù)提取智能體的平均加權(quán)準(zhǔn)確率高達(dá)93.1%(區(qū)間91.1-97.0%),顯著優(yōu)于雙人評審組(79.7%[69.1-91.0%])和Elicit(74.8%[58.8-83.1%])。

在otto-SR提取智能體的6.9%誤差案例中,事后分析揭示了主要原因:

· 0.83%(39/4459)因模型無法獲取補(bǔ)充文件或需申請的數(shù)據(jù);

· 0.67%(30/4459)源于解析錯(cuò)誤;

· 0.49%(22/4459)屬于otto-SR與原作者均不準(zhǔn)確的情況。

這些發(fā)現(xiàn)為未來的優(yōu)化提供了明確方向,例如改進(jìn)對補(bǔ)充文件的處理能力和解析準(zhǔn)確性。

短短2天,AI爆肝12年工作

既然GPT-4.1+o3-mini在性能評估中刷新SOTA,那么在實(shí)際挑戰(zhàn)任務(wù)中,表現(xiàn)又如何呢?

為了驗(yàn)證實(shí)用價(jià)值,作者對「Cochrane系統(tǒng)綜述數(shù)據(jù)庫」的12篇系統(tǒng)綜述,共146,276篇文獻(xiàn),進(jìn)行了復(fù)現(xiàn)與更新測試。

otto-SR智能工作流

otto-SR聚焦每篇綜述的主要結(jié)局(Primary Outcome),讓入選標(biāo)準(zhǔn)更清晰。

篩選智能體準(zhǔn)確識別了全部64項(xiàng)納入研究;數(shù)據(jù)提取智能體按Cochrane原始變量定義提取主要結(jié)局?jǐn)?shù)據(jù),程序化剔除了缺失主要結(jié)局值、重復(fù)研究或無干預(yù)-對照組的記錄。

結(jié)果顯示,otto-SR錯(cuò)誤排除研究的中位數(shù)為0篇(IQR 0-0.25)。

值得一提的是,在限定原始檢索截止日期的分析中,otto-SR意外發(fā)現(xiàn)了54篇可能被原綜述遺漏的合格研究。

人工復(fù)核確認(rèn)其中10篇為假陽性,但9篇可能通過作者溝通獲取相關(guān)數(shù)據(jù)。

進(jìn)一步更新檢索至2025年5月8日,otto-SR又發(fā)現(xiàn)了14篇新合格研究,其中僅2篇假陽性,1篇可能含相關(guān)數(shù)據(jù)。

另外,在營養(yǎng)學(xué)綜述中,otto-SR發(fā)現(xiàn)了5項(xiàng)新增研究。這一發(fā)現(xiàn)展示了otto-SR挖掘新證據(jù)、優(yōu)化結(jié)論的能力。

作者介紹

Christian Cao

Christian Cao目前是多倫多大學(xué)醫(yī)學(xué)院在讀博士。

目前其研究方向聚焦于開發(fā)人工智能模型,致力于預(yù)測可避免的住院事件及糖尿病相關(guān)并發(fā)癥。

Rohit Arora

Rohit Arora目前是哈佛大學(xué)生物信息學(xué)一年級博士生。

他專注于人工智能在科學(xué)研究中的應(yīng)用,研究方向集中于藥物發(fā)現(xiàn)與蛋白質(zhì)設(shè)計(jì)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2009-07-02 08:45:25

網(wǎng)易魔獸

2024-03-15 15:09:28

2023-03-10 13:01:50

模型AI

2024-01-09 12:58:21

PC性能NVIDIA

2025-03-31 07:50:00

開源模型AI

2024-12-16 18:04:11

2025-01-13 13:00:00

AI模型訓(xùn)練

2025-01-13 10:30:59

2024-11-26 10:44:18

2024-05-15 15:12:05

OpenAIAI助手大模型

2011-05-09 00:13:17

Windows Pho微軟

2025-03-31 00:05:00

2015-12-15 11:23:25

2023-06-08 08:43:36

2012-05-22 09:55:35

摩托羅拉移動(dòng)谷歌收購

2011-06-10 15:47:26

SEO優(yōu)化

2011-08-10 09:18:05

亞馬遜彈性計(jì)算云故障

2021-08-25 09:33:16

算法開發(fā)技術(shù)

2023-11-06 10:41:46

ChatGPT馬斯克
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: www国产亚洲精品久久网站 | 亚洲国产成人av | 欧美在线视频观看 | 放个毛片看看 | 午夜精品在线观看 | 日韩欧美电影在线 | 在线播放日韩 | 欧美一级免费看 | 特级黄色毛片 | 欧美中文字幕在线观看 | 国产视频亚洲视频 | 毛片网站免费观看 | 午夜影院网站 | 青青久视频 | 精品国产乱码久久久久久图片 | av免费网站在线观看 | 四虎最新视频 | 日韩有码一区 | 99久久久99久久国产片鸭王 | 亚洲一区二区三区 | 国产一级黄色网 | 成人av免费在线观看 | 久久亚洲欧美日韩精品专区 | 日日操夜夜干 | 亚洲二区精品 | 91久久爽久久爽爽久久片 | 久久精品无码一区二区三区 | 黄色av网站在线观看 | 精品视频成人 | av中文字幕在线播放 | 久久久久久毛片免费观看 | 国产精品一区二区福利视频 | 欧美一级二级视频 | 欧美成人一区二免费视频软件 | 成人国产在线观看 | 亚洲午夜精品久久久久久app | 日韩视频在线一区二区 | 日本三级全黄三级三级三级口周 | 日韩人体视频 | 亚洲xxxxx| 美女二区 |