成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<li id="06aws"></li>

<rt id="06aws"></rt>

<button id="06aws"><source id="06aws"></source></button>

<li id="06aws"></li>

<button id="06aws"></button>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生

發(fā)布于 2025-2-24 09:51

瀏覽

0收藏

在醫(yī)療領(lǐng)域，大模型的應(yīng)用和影響力正在不斷擴大。但當(dāng)前對于大模型在醫(yī)療任務(wù)中的評估主要依賴于選擇題基準(zhǔn)測試，這種方式存在很多局限性，例如，高度受限、無法真實反映臨床決策復(fù)雜性以及模型可能通過語義結(jié)構(gòu)答題等問題。

為了更全面真實地評估大模型在醫(yī)學(xué)推理任務(wù)中的實際能力，哈佛醫(yī)學(xué)院、馬里蘭大學(xué)醫(yī)學(xué)院、劍橋健康聯(lián)盟、斯坦福大學(xué)等通過OpenAI的o1-preview模型，設(shè)計了一系列嚴(yán)謹(jǐn)?shù)膶嶒灒ㄨb別診斷生成、推理展示、概率推理和管理推理等多個關(guān)鍵測試，并由經(jīng)驗豐富的專家醫(yī)師用經(jīng)過嚴(yán)格驗證的測量方法，對模型輸出的質(zhì)量進(jìn)行全面且細(xì)致的評估

結(jié)果顯示，o1-preview在差異診斷生成、展示推理和管理推理等方面展現(xiàn)了超越人類水平的表現(xiàn)，尤其是在需要批判性思維的任務(wù)如診斷和管理上表現(xiàn)非常出色。

o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生-AI.x社區(qū)

在數(shù)據(jù)收集方面，研究團隊采用了多種評分系統(tǒng)和統(tǒng)計方法來評估o1-preview的表現(xiàn)。例如，對于鑒別診斷的質(zhì)量，兩位主治內(nèi)科醫(yī)師獨立使用Bond Score進(jìn)行評分，該評分系統(tǒng)的范圍是0到5，其中5分代表包含確切目標(biāo)診斷的鑒別診斷列表，0分代表與目標(biāo)診斷無關(guān)的鑒別診斷列表。

對于測試計劃的質(zhì)量，評分使用了從0到2的Likert量表，通過將建議的測試計劃與案例中實際進(jìn)行的診斷進(jìn)行比較。此外，研究團隊還使用了線性加權(quán)Cohen's kappa來評估評分者之間的一致性，并通過討論解決不一致的評分。

在統(tǒng)計分析方面，研究團隊使用了R語言進(jìn)行數(shù)據(jù)分析。他們比較了o1-preview與歷史上的GPT-4、主治醫(yī)師和住院醫(yī)師的表現(xiàn)，并使用了McNemar's test、t-test和混合效應(yīng)模型等統(tǒng)計方法來評估模型之間的差異。

研究人員首先評估的是NEJM CPCs案例，是鑒別診斷生成器的傳統(tǒng)標(biāo)準(zhǔn)。o1-preview在這些案例中的表現(xiàn)令人印象深刻。

在143個案例中，o1-preview在78.3%的情況下將正確診斷包含在其鑒別診斷中，而在70個與GPT-4相同的案例中，o1-preview在88.6%的情況下提供了確切或非常接近的診斷，相較于GPT-4的72.9%有顯著提升。

o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生-AI.x社區(qū)

在評估o1-preview選擇下一步診斷測試的能力時，兩位醫(yī)師對o1-preview生成的測試計劃進(jìn)行了評分。

在132個案例中，o1-preview在87.5%的情況下選擇了正確的測試，11%的情況下選擇的測試計劃被認(rèn)為有幫助，僅有1.5%的情況下會被認(rèn)為無幫助。這些數(shù)據(jù)進(jìn)一步證實了o1-preview在臨床決策支持中的潛力。

在NEJM Healer診斷案例中，o1-preview的表現(xiàn)同樣出色。這些案例是為評估臨床推理而設(shè)計的虛擬患者接觸，o1-preview在80個案例中的78個達(dá)到了完美的R-IDEA評分，遠(yuǎn)高于GPT-4的47個、主治醫(yī)師的28個和住院醫(yī)師的16個。

o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生-AI.x社區(qū)

R-IDEA評分是一個驗證過的10點評分系統(tǒng)，用于評估記錄臨床推理的四個核心領(lǐng)域。這一結(jié)果表明o1-preview在展示臨床推理方面的能力遠(yuǎn)超人類醫(yī)師和其他同類大模型。

在基于真實案例的Grey Matters管理案例中，o1-preview的表現(xiàn)同樣出色。在五個臨床小節(jié)中，o1-preview的得分中位數(shù)為86%，高于GPT-4的42%、使用GPT-4的醫(yī)師的41%和使用傳統(tǒng)資源的醫(yī)師的34%。

o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生-AI.x社區(qū)

在與50位普通醫(yī)師比較的六個Landmark診斷案例中，o1-preview的表現(xiàn)與GPT-4相當(dāng)，中位數(shù)得分為97%，而GPT-4為92%，使用GPT-4的醫(yī)師為76%，使用傳統(tǒng)資源的醫(yī)師為74%。這些數(shù)據(jù)表明o1-preview在診斷推理方面的能力與GPT-4相當(dāng)，且優(yōu)于人類醫(yī)師。

在診斷概率推理案例中，o1-preview的表現(xiàn)與GPT-4相似，在估計測試前和測試后概率方面與GPT-4表現(xiàn)相近。然而，在冠狀動脈疾病的壓力測試中，o1-preview的密度更接近參考范圍。這一結(jié)果表明o1-preview在概率推理方面的能力與GPT-4相當(dāng)，但在某些特定情況下可能更接近科學(xué)參考概率。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/p6D5YozZcmX14OFA8pdDgg??

標(biāo)簽

數(shù)據(jù)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

剛剛，OpenAI發(fā)布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2737瀏覽 ? 0回復(fù)
OpenAI發(fā)布突破性AI模型o1系列，推理能力大幅躍升重塑行業(yè)格局

芝士AI吃魚 ? 2867瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3875瀏覽 ? 0回復(fù)
OpenAI o1引發(fā)的思維鏈思考：思維鏈提示啟發(fā)大模型推理

angel ? 3941瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2523瀏覽 ? 0回復(fù)
被神化的o1模型，規(guī)劃能力到底如何？

大語言模型論文跟蹤 ? 3048瀏覽 ? 0回復(fù)
o1推理擴展的風(fēng)吹到了RAG，性能飆升58.9%！

PaperAgent ? 2757瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2668瀏覽 ? 0回復(fù)
向o1看齊，Google開源RAG推理擴展，提升近60%

NLP前沿1 ? 2231瀏覽 ? 0回復(fù)
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2803瀏覽 ? 0回復(fù)
解密o1推理過程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 3179瀏覽 ? 0回復(fù)
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 2867瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯，實測數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費

51CTO技術(shù)棧 ? 3053瀏覽 ? 0回復(fù)
o3模型智商157，比肩愛因斯坦！AI只用7個月，超過人類100年

Aceryt ? 2301瀏覽 ? 0回復(fù)
FineMedLM-o1: 基于監(jiān)督微調(diào)與測試時訓(xùn)練的醫(yī)學(xué)推理增強型大語言模型

頓數(shù)AI ? 3199瀏覽 ? 0回復(fù)
Kimi深夜炸場：滿血版多模態(tài)o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產(chǎn)o1絕對不是巧合！

51CTO技術(shù)棧 ? 2318瀏覽 ? 0回復(fù)
最簡單的推理擴展方案，效果媲美o1！

NLP前沿1 ? 1809瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓(xùn)練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 6109瀏覽 ? 0回復(fù)
阿里推出 LingShu AI醫(yī)生：統(tǒng)一多模態(tài)醫(yī)學(xué)理解與推理的通用基礎(chǔ)模型

知識圖譜科技 ? 1072瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當(dāng)，實測來了 0回復(fù)

上一篇：微軟發(fā)布創(chuàng)新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了

下一篇：谷歌提出Titans：突破算力限制，擴展上下文

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板： 97精品国产97久久久久久免费 | 中文字幕在线精品 | 欧美在线资源 | 我想看国产一级毛片 | 99久久中文字幕三级久久日本 | xx视频在线观看 | 精品国产一区一区二区三亚瑟 | 天天爽网站 | 一区二区三区在线电影 | 成人网av | 久久久久久91香蕉国产 | 亚洲精品国产电影 | 亚洲精品丝袜日韩 | 日韩淫片免费看 | 天堂中文资源在线 | www.日韩系列 | 国产一级特黄视频 | 国产一级影片 | 国产精品久久777777 | 天天干国产 | 久久成人在线视频 | 日韩在线小视频 | 欧美日韩国产免费 | 欧美黄色网 | av在线免费观看网站 | 午夜影院在线 | 精品一区二区三区在线观看 | 欧美激情精品久久久久久免费 | av在线播放一区二区 | 91精品国产乱码久久久久久 | 最近免费日本视频在线 | 国产成人综合一区二区三区 | 麻豆视频在线免费看 | 欧美一级三级在线观看 | 国产乱人伦| 成人国产精品久久久 | 一区2区| 日韩专区中文字幕 | 久久综合成人精品亚洲另类欧美 | www.青青草| 精品久久99|

<li id="mye88"></li>

<li id="mye88"></li>

<li id="mye88"></li>

<cite id="mye88"></cite>