成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1模型醫(yī)學(xué)推理驚人,超過人類醫(yī)生

發(fā)布于 2025-2-24 09:51
瀏覽
0收藏

在醫(yī)療領(lǐng)域,大模型的應(yīng)用和影響力正在不斷擴大。但當(dāng)前對于大模型在醫(yī)療任務(wù)中的評估主要依賴于選擇題基準(zhǔn)測試,這種方式存在很多局限性,例如,高度受限、無法真實反映臨床決策復(fù)雜性以及模型可能通過語義結(jié)構(gòu)答題等問題。


為了更全面真實地評估大模型在醫(yī)學(xué)推理任務(wù)中的實際能力,哈佛醫(yī)學(xué)院、馬里蘭大學(xué)醫(yī)學(xué)院、劍橋健康聯(lián)盟、斯坦福大學(xué)等通過OpenAI的o1-preview模型,設(shè)計了一系列嚴(yán)謹(jǐn)?shù)膶嶒灒ㄨb別診斷生成、推理展示、概率推理和管理推理等多個關(guān)鍵測試,并由經(jīng)驗豐富的專家醫(yī)師用經(jīng)過嚴(yán)格驗證的測量方法,對模型輸出的質(zhì)量進(jìn)行全面且細(xì)致的評估

結(jié)果顯示,o1-preview在差異診斷生成、展示推理和管理推理等方面展現(xiàn)了超越人類水平的表現(xiàn),尤其是在需要批判性思維的任務(wù)如診斷和管理上表現(xiàn)非常出色。

o1模型醫(yī)學(xué)推理驚人,超過人類醫(yī)生-AI.x社區(qū)

在數(shù)據(jù)收集方面,研究團隊采用了多種評分系統(tǒng)和統(tǒng)計方法來評估o1-preview的表現(xiàn)。例如,對于鑒別診斷的質(zhì)量,兩位主治內(nèi)科醫(yī)師獨立使用Bond Score進(jìn)行評分,該評分系統(tǒng)的范圍是0到5,其中5分代表包含確切目標(biāo)診斷的鑒別診斷列表,0分代表與目標(biāo)診斷無關(guān)的鑒別診斷列表。


對于測試計劃的質(zhì)量,評分使用了從0到2的Likert量表,通過將建議的測試計劃與案例中實際進(jìn)行的診斷進(jìn)行比較。此外,研究團隊還使用了線性加權(quán)Cohen's kappa來評估評分者之間的一致性,并通過討論解決不一致的評分。


在統(tǒng)計分析方面,研究團隊使用了R語言進(jìn)行數(shù)據(jù)分析。他們比較了o1-preview與歷史上的GPT-4、主治醫(yī)師和住院醫(yī)師的表現(xiàn),并使用了McNemar's test、t-test和混合效應(yīng)模型等統(tǒng)計方法來評估模型之間的差異。


研究人員首先評估的是NEJM CPCs案例,是鑒別診斷生成器的傳統(tǒng)標(biāo)準(zhǔn)。o1-preview在這些案例中的表現(xiàn)令人印象深刻。


在143個案例中,o1-preview在78.3%的情況下將正確診斷包含在其鑒別診斷中,而在70個與GPT-4相同的案例中,o1-preview在88.6%的情況下提供了確切或非常接近的診斷,相較于GPT-4的72.9%有顯著提升。

o1模型醫(yī)學(xué)推理驚人,超過人類醫(yī)生-AI.x社區(qū)

在評估o1-preview選擇下一步診斷測試的能力時,兩位醫(yī)師對o1-preview生成的測試計劃進(jìn)行了評分。


在132個案例中,o1-preview在87.5%的情況下選擇了正確的測試,11%的情況下選擇的測試計劃被認(rèn)為有幫助,僅有1.5%的情況下會被認(rèn)為無幫助。這些數(shù)據(jù)進(jìn)一步證實了o1-preview在臨床決策支持中的潛力。


在NEJM Healer診斷案例中,o1-preview的表現(xiàn)同樣出色。這些案例是為評估臨床推理而設(shè)計的虛擬患者接觸,o1-preview在80個案例中的78個達(dá)到了完美的R-IDEA評分,遠(yuǎn)高于GPT-4的47個、主治醫(yī)師的28個和住院醫(yī)師的16個。

o1模型醫(yī)學(xué)推理驚人,超過人類醫(yī)生-AI.x社區(qū)

R-IDEA評分是一個驗證過的10點評分系統(tǒng),用于評估記錄臨床推理的四個核心領(lǐng)域。這一結(jié)果表明o1-preview在展示臨床推理方面的能力遠(yuǎn)超人類醫(yī)師和其他同類大模型。


在基于真實案例的Grey Matters管理案例中,o1-preview的表現(xiàn)同樣出色。在五個臨床小節(jié)中,o1-preview的得分中位數(shù)為86%,高于GPT-4的42%、使用GPT-4的醫(yī)師的41%和使用傳統(tǒng)資源的醫(yī)師的34%。

o1模型醫(yī)學(xué)推理驚人,超過人類醫(yī)生-AI.x社區(qū)

在與50位普通醫(yī)師比較的六個Landmark診斷案例中,o1-preview的表現(xiàn)與GPT-4相當(dāng),中位數(shù)得分為97%,而GPT-4為92%,使用GPT-4的醫(yī)師為76%,使用傳統(tǒng)資源的醫(yī)師為74%。這些數(shù)據(jù)表明o1-preview在診斷推理方面的能力與GPT-4相當(dāng),且優(yōu)于人類醫(yī)師。


在診斷概率推理案例中,o1-preview的表現(xiàn)與GPT-4相似,在估計測試前和測試后概率方面與GPT-4表現(xiàn)相近。然而,在冠狀動脈疾病的壓力測試中,o1-preview的密度更接近參考范圍。這一結(jié)果表明o1-preview在概率推理方面的能力與GPT-4相當(dāng),但在某些特定情況下可能更接近科學(xué)參考概率。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/p6D5YozZcmX14OFA8pdDgg??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 97精品国产97久久久久久免费 | 中文字幕在线精品 | 欧美在线资源 | 我想看国产一级毛片 | 99久久中文字幕三级久久日本 | xx视频在线观看 | 精品国产一区一区二区三亚瑟 | 天天爽网站 | 一区二区三区在线电影 | 成人网av | 久久久久久91香蕉国产 | 亚洲精品国产电影 | 亚洲精品丝袜日韩 | 日韩淫片免费看 | 天堂中文资源在线 | www.日韩系列 | 国产一级特黄视频 | 国产一级影片 | 国产精品久久777777 | 天天干国产 | 久久成人在线视频 | 日韩在线小视频 | 欧美日韩国产免费 | 欧美黄色网 | av在线免费观看网站 | 午夜影院在线 | 精品一区二区三区在线观看 | 欧美激情精品久久久久久免费 | av在线播放一区二区 | 91精品国产乱码久久久久久 | 最近免费日本视频在线 | 国产成人综合一区二区三区 | 麻豆视频在线免费看 | 欧美一级三级在线观看 | 国产乱人伦| 成人国产精品久久久 | 一区2区| 日韩专区中文字幕 | 久久综合成人精品亚洲另类欧美 | www.青青草| 精品久久99|