o1模型醫(yī)學(xué)推理驚人,超過人類醫(yī)生
在醫(yī)療領(lǐng)域,大模型的應(yīng)用和影響力正在不斷擴大。但當(dāng)前對于大模型在醫(yī)療任務(wù)中的評估主要依賴于選擇題基準(zhǔn)測試,這種方式存在很多局限性,例如,高度受限、無法真實反映臨床決策復(fù)雜性以及模型可能通過語義結(jié)構(gòu)答題等問題。
為了更全面真實地評估大模型在醫(yī)學(xué)推理任務(wù)中的實際能力,哈佛醫(yī)學(xué)院、馬里蘭大學(xué)醫(yī)學(xué)院、劍橋健康聯(lián)盟、斯坦福大學(xué)等通過OpenAI的o1-preview模型,設(shè)計了一系列嚴(yán)謹(jǐn)?shù)膶嶒灒ㄨb別診斷生成、推理展示、概率推理和管理推理等多個關(guān)鍵測試,并由經(jīng)驗豐富的專家醫(yī)師用經(jīng)過嚴(yán)格驗證的測量方法,對模型輸出的質(zhì)量進(jìn)行全面且細(xì)致的評估
結(jié)果顯示,o1-preview在差異診斷生成、展示推理和管理推理等方面展現(xiàn)了超越人類水平的表現(xiàn),尤其是在需要批判性思維的任務(wù)如診斷和管理上表現(xiàn)非常出色。
在數(shù)據(jù)收集方面,研究團隊采用了多種評分系統(tǒng)和統(tǒng)計方法來評估o1-preview的表現(xiàn)。例如,對于鑒別診斷的質(zhì)量,兩位主治內(nèi)科醫(yī)師獨立使用Bond Score進(jìn)行評分,該評分系統(tǒng)的范圍是0到5,其中5分代表包含確切目標(biāo)診斷的鑒別診斷列表,0分代表與目標(biāo)診斷無關(guān)的鑒別診斷列表。
對于測試計劃的質(zhì)量,評分使用了從0到2的Likert量表,通過將建議的測試計劃與案例中實際進(jìn)行的診斷進(jìn)行比較。此外,研究團隊還使用了線性加權(quán)Cohen's kappa來評估評分者之間的一致性,并通過討論解決不一致的評分。
在統(tǒng)計分析方面,研究團隊使用了R語言進(jìn)行數(shù)據(jù)分析。他們比較了o1-preview與歷史上的GPT-4、主治醫(yī)師和住院醫(yī)師的表現(xiàn),并使用了McNemar's test、t-test和混合效應(yīng)模型等統(tǒng)計方法來評估模型之間的差異。
研究人員首先評估的是NEJM CPCs案例,是鑒別診斷生成器的傳統(tǒng)標(biāo)準(zhǔn)。o1-preview在這些案例中的表現(xiàn)令人印象深刻。
在143個案例中,o1-preview在78.3%的情況下將正確診斷包含在其鑒別診斷中,而在70個與GPT-4相同的案例中,o1-preview在88.6%的情況下提供了確切或非常接近的診斷,相較于GPT-4的72.9%有顯著提升。
在評估o1-preview選擇下一步診斷測試的能力時,兩位醫(yī)師對o1-preview生成的測試計劃進(jìn)行了評分。
在132個案例中,o1-preview在87.5%的情況下選擇了正確的測試,11%的情況下選擇的測試計劃被認(rèn)為有幫助,僅有1.5%的情況下會被認(rèn)為無幫助。這些數(shù)據(jù)進(jìn)一步證實了o1-preview在臨床決策支持中的潛力。
在NEJM Healer診斷案例中,o1-preview的表現(xiàn)同樣出色。這些案例是為評估臨床推理而設(shè)計的虛擬患者接觸,o1-preview在80個案例中的78個達(dá)到了完美的R-IDEA評分,遠(yuǎn)高于GPT-4的47個、主治醫(yī)師的28個和住院醫(yī)師的16個。
R-IDEA評分是一個驗證過的10點評分系統(tǒng),用于評估記錄臨床推理的四個核心領(lǐng)域。這一結(jié)果表明o1-preview在展示臨床推理方面的能力遠(yuǎn)超人類醫(yī)師和其他同類大模型。
在基于真實案例的Grey Matters管理案例中,o1-preview的表現(xiàn)同樣出色。在五個臨床小節(jié)中,o1-preview的得分中位數(shù)為86%,高于GPT-4的42%、使用GPT-4的醫(yī)師的41%和使用傳統(tǒng)資源的醫(yī)師的34%。
在與50位普通醫(yī)師比較的六個Landmark診斷案例中,o1-preview的表現(xiàn)與GPT-4相當(dāng),中位數(shù)得分為97%,而GPT-4為92%,使用GPT-4的醫(yī)師為76%,使用傳統(tǒng)資源的醫(yī)師為74%。這些數(shù)據(jù)表明o1-preview在診斷推理方面的能力與GPT-4相當(dāng),且優(yōu)于人類醫(yī)師。
在診斷概率推理案例中,o1-preview的表現(xiàn)與GPT-4相似,在估計測試前和測試后概率方面與GPT-4表現(xiàn)相近。然而,在冠狀動脈疾病的壓力測試中,o1-preview的密度更接近參考范圍。這一結(jié)果表明o1-preview在概率推理方面的能力與GPT-4相當(dāng),但在某些特定情況下可能更接近科學(xué)參考概率。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
