成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

入選ICML 2025!哈佛醫學院等推出全球首個HIE領域臨床思維圖譜模型,神經認知結果預測任務上性能提升15% 原創

發布于 2025-6-23 13:09
瀏覽
0收藏

在人工智能技術突飛猛進的當下,大型視覺-語言模型(LVLMs)正以驚人的速度重塑多個領域的認知邊界。在自然圖像與視頻分析領域,這類模型依托先進的神經網絡架構、海量標注數據集與強大算力支持,已能精準完成物體識別、場景解析等高階任務。而在自然語言處理領域,LVLMs 通過對 TB 級文本語料的學習,在機器翻譯、文本摘要、情感分析等任務上達到專業級水準,其生成的學術摘要甚至能精準提煉醫學文獻的核心結論。


然而當技術浪潮涌向醫學領域,LVLMs 的落地進程卻遭遇顯著阻力。盡管臨床場景對智能化輔助診斷的需求極為迫切,這類模型的醫學應用仍停留在初級探索階段。核心瓶頸源自醫學數據的獨特屬性:受患者隱私保護法規、醫療數據孤島效應及倫理審查機制的多重制約,公開可用的高質量醫學數據集規模僅為通用領域的萬分之一量級。現有醫學數據集大多采用基礎視覺問答架構,聚焦「這是哪個解剖結構」等初級模式識別任務——如某公開數據集包含 20 萬張 X 光片標注,但 90% 的標注內容停留在器官定位層面,無法觸及病變嚴重程度分級、預后風險評估等臨床核心需求。


這種數據供給與實際需求的錯位,導致模型在面對新生兒缺氧缺血性腦病(HIE)MRI 圖像時,雖能識別基底節區異常信號,卻無法整合孕周、圍產期病史等多維度信息進行神經發育預后預測。


為了突破這一困境,來自波士頓兒童醫院聯合哈佛醫學院、紐約大學及 MIT-IBM 沃森實驗室的跨學科團隊,收集了 133 名與缺氧缺血性腦病(HIE)相關的個體十年 MRI 圖像及專家解讀,構建了一個專業級醫學推理基準測試數據集,旨在精準評估 LVLMs 在醫學專業領域的推理表現。研究團隊還提出了一種臨床思維圖譜模型(CGoT),能夠通過臨床知識引導的思維圖譜提示來模擬診斷過程,可將特定領域的臨床知識作為視覺和文本輸入納入其中,從而顯著增強 LVLMs 的預測能力。


相關研究成果以「Visual and Domain Knowledge for Professional-level Graph-of-Thought Medical Reasoning」為題,已成功入選 ICML 2025 。


研究亮點:

* 創建全新 HIE 推理基準測試,首次將臨床視覺感知與專業醫學知識結合,模擬臨床決策流程,精準評估 LVLMs 在醫學推理中的專業表現。

* 全面對比先進通用和醫學 LVLMs,揭示其在醫學領域知識方面的局限性,為模型改進提供方向。

* 提出 CGoT 模型,融合醫學專業知識與 LVLMs,模仿臨床決策過程,有效增強醫學決策支持。

入選ICML 2025!哈佛醫學院等推出全球首個HIE領域臨床思維圖譜模型,神經認知結果預測任務上性能提升15%-AI.x社區

論文地址: ?

??https://openreview.net/forum?id=tnyxtaSve5??

更多 AI 前沿論文:
???https://go.hyper.ai/owxf6??

開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數據集與工具:
???https://github.com/hyperai/awesome-ai4s??

HIE-Reasoning:多模態數據集構建與專業推理任務體系創設

在數據構建層面,該研究聚焦缺氧缺血性腦病(HIE)這一新生兒重癥,歷時 10 年收集了 133 例 HIE 患兒從出生 0-14 天內的高質量 MRI 影像,同步獲取經多學科專家(包括擁有 30 年經驗的資深神經放射科醫生)臨床驗證的解讀報告,形成縱向追蹤的核心數據集。


如下圖所示,研究人員定義了 6 項任務供 LVLMs 執行專業臨床推理:

* 任務 1:病變分級(Lesion Grading)。該任務通過估算受 HIE 病變影響的大腦體積百分比以及評估病變的嚴重程度來量化大腦損傷。

* 任務 2:病變解剖學(Lesion Anatomy)。該任務識別受病變影響的大腦特定區域。

* 任務 3:罕見部位病變(Lesion in Rare Locations)。該任務識別由 HIE 引起的病變,并將受影響區域分為常見或不常見,幫助確定患者是否需要額外關注。

* 任務 4:MRI 損傷評分(MRI Injury Score)。該任務輸出 MRI 的整體損傷評分,提供一個標準化的損傷嚴重程度衡量標準,以指導治療和預測結果。

* 任務 5:2 年神經認知結果(Neurocognitive Outcome)。該任務預測患者 2 年后的神經認知結果,幫助臨床醫生預測長期影響并計劃適當的干預措施。

* 任務 6:MRI 解讀總結(MRI Interpretation)。該任務基于放射科醫生推薦的新生兒 MRI 總結模板,能夠為患者生成全面的 MRI 解讀。

入選ICML 2025!哈佛醫學院等推出全球首個HIE領域臨床思維圖譜模型,神經認知結果預測任務上性能提升15%-AI.x社區

HIE-Reasoning 數據集和任務概述

最終,研究人員構建了全球首個公開的 HIE 數據集 HIE-Reasoning,含 749 對問答和 133 個 MRI 解讀總結。與 VQAmed 、 OmiMed-VQA 等傳統醫學數據集聚焦成像方式識別、器官定位等基礎問題不同,該數據集首次將臨床專家的深度推理過程轉化為可計算的評估體系,其數據結構創新采用三層架構——患者級原始影像與任務文件、跨案例元知識推理模板、個體病變概率圖譜,既保留醫學數據的完整性,又為模型提供包含病理機制的顯性知識輸入。


盡管樣本量僅 133 例,但通過長達 17 年(2001-2018 年)的多中心回顧性收集,結合 HIE 在三級醫院 1-5‰ 的低發率特征,該數據集成為首個整合影像-臨床-預后多模態信息的 HIE 專用基準,其標注精度與臨床深度足以彌補規模限制,為 LVLMs 突破「基礎識別」瓶頸、進入診療決策深水區提供了不可或缺的標尺。


CGoT 模型:臨床思維圖譜驅動,構建可解釋分層醫學推理新框架

為突破傳統大型視覺-語言模型(LVLMs)在醫學推理中的解釋性瓶頸(如下圖 A 所示),研究團隊提出了臨床思維圖譜模型(CGoT),如下圖 B-C 所示,通過整合臨床知識引導語言模型模擬醫生診斷流程,從而顯著提升預測神經認知結果的可靠性。該模型創新性地采用結構化「推理思維圖譜」,將醫學專家的診斷步驟轉化為分層推理管道,通過逐步累積知識解決復雜任務。

入選ICML 2025!哈佛醫學院等推出全球首個HIE領域臨床思維圖譜模型,神經認知結果預測任務上性能提升15%-AI.x社區

LVLM 與 CGoT 的推理圖

文本知識端則分為元臨床知識(含大腦解剖圖譜、病變分布規律、 MRI 生物標志物預后關聯等通用醫學背景)與個體臨床知識(通過前序任務輸出動態生成的患者特異性診斷線索),兩類知識以 Prompt Engineering 方式結構化輸入,引導 LVLM 按照「臨床指南-影像特征-個體病史」的邏輯鏈逐步推導。


整個框架通過臨床圖結構化提示與跨模態知識融合,將隱性的醫學診斷邏輯轉化為可計算的模型輸入,既保留了 LVLMs 的跨模態處理能力,又通過臨床知識錨定避免了推理過程的隨機性。


CGoT 臨床推理效能評估,在關鍵任務上實現突破性提升

為驗證 HIE-Reasoning 基準測試與 CGoT 模型的有效性,研究團隊設計了多維度實驗體系。


首先,研究人員對 6 個大型視覺語言模型進行了零樣本評估,選取了 3 類通用 LVLMs(Gemini1.5-Flash 、 GPT4o-Mini 、 GPT4o)與 3 類醫學 LVLMs(MiniGPT4-Med 、 LLava-Med 、 Med-Flamingo)作為基線模型,針對病變分級、解剖定位、預后預測等 6 大臨床任務,采用準確率、 MAE 、 F1 分數、 ROUGE-L 等任務特異性指標進行評估,其中兩年神經認知結果預測采用類別間平均準確率以平衡標簽分布偏差。


實驗結果揭示了傳統 LVLMs 的顯著局限性:當直接輸入 MRI 切片與任務描述時,所有基線模型在專業醫學推理任務中表現不佳,部分模型因缺乏臨床知識出現回答幻覺或保守拒答,例如 Med-Flamingo 在解剖定位任務中生成無意義重復內容,GPT4o 系列因對齊策略無法處理高不確定性問題。


與之形成鮮明對比的是,如下表所示,CGoT 模型通過整合臨床思維圖譜與跨模態知識,在關鍵任務上實現突破性提升——尤其在兩年預后預測這一核心臨床需求上,其性能較基線模型提升超過 15%,病變分級、損傷評分等任務的準確率與一致性也顯著優于對照組。

入選ICML 2025!哈佛醫學院等推出全球首個HIE領域臨床思維圖譜模型,神經認知結果預測任務上性能提升15%-AI.x社區

各種模型在 HIE-Reasoning 基準上的性能比較

入選ICML 2025!哈佛醫學院等推出全球首個HIE領域臨床思維圖譜模型,神經認知結果預測任務上性能提升15%-AI.x社區

CGoT 定性結果

同時,魯棒性實驗顯示,即使在 10%-30% 的中間任務結果中引入 ±1 級評分擾動,模型性能僅呈現漸進式下降,證明其對臨床實踐中常見數據噪聲的適應能力。這些發現共同表明,CGoT 通過模擬臨床診斷的分層推理過程,既突破了傳統模型的知識盲區,又構建了貼近真實診療場景的可靠決策支持體系。

?

醫學 LVLMs 的雙輪驅動,學術界與企業界的創新實踐與趨勢

在全球范圍內,醫學領域的大型視覺-語言模型(LVLMs)研究與應用正經歷范式變革,學術界與企業界的創新實踐共同推動著這一領域的突破。


在學術研究層面,上海人工智能實驗室聯合華盛頓大學/莫納什大學/華東師范大學等多所科研單位共同發布的 GMAI-MMBench 基準測試,整合了 284 個臨床任務數據集,覆蓋 38 種醫學影像模態與 18 項核心臨床需求(如腫瘤診斷、神經影像分析等)。該基準通過詞匯樹分類系統,將病例按科室、模態與任務類型精準歸類,為評估 LVLMs 的臨床推理能力提供了標準化框架。
??* 點擊查看完整報道:含 284 個數據集,覆蓋 18 項臨床任務,上海 AI Lab 等發布多模態醫療基準 GMAI-MMBench??


此外,埃默里大學、南加州大學、東京大學和約翰霍普金斯大學聯合開發的 Med-R1,針對傳統監督式微調(SFT)方法的局限性,創新性地引入群體相對策略優化(GRPO),無需復雜的價值模型即可通過規則獎勵和群體比較穩定策略更新。香港科技大學推出的 MedDr 等開源 LVLMs 在特定任務(如病變分級)上的表現已接近商業模型,證明了開源生態在醫學 AI 領域的潛力。


企業界則以技術落地為核心,加速推動 LVLMs 的臨床轉化。例如,微軟 Azure 醫療云平臺通過整合 AI 工具與臨床數據,實現了醫學影像分析、電子病歷自動化等功能的深度融合。其與多家醫院合作開發的智能放射學系統,能夠通過 LVLMs 快速識別 MRI 影像中的異常區域,并生成結構化報告,輔助醫生完成病變分級與解剖定位任務。


谷歌推出了開源醫療模型 MedGemma,基于 Gemma3 架構,專為醫療健康領域設計,旨在通過無縫結合醫學圖像和文本數據的分析,來增強醫療健康應用,提升醫療診斷與治療的效率。
??* 點擊查看詳細報道:谷歌發布 MedGemma,基于 Gemma 3 構建,專攻醫學文本與圖像理解??


這些實踐共同揭示了醫學 LVLMs 發展的兩大趨勢:一是臨床知識與模型架構的深度融合,例如本文所述研究的 HIE-Reasoning 基準測試中通過專家標注構建的任務體系,以及 CGoT 模型引入的臨床思維圖譜;二是跨學科協作與數據治理的創新,如 GMAI-MMBench 通過統一標注格式與倫理合規流程整合全球數據集,為解決醫學數據稀缺性提供了范例。未來,隨著聯邦學習、合成數據生成等技術的進一步應用,學術界與企業界有望在更復雜的臨床場景(如多模態預后預測、實時手術導航)中實現突破,真正推動 AI 從輔助工具向智能決策伙伴的角色轉變。


參考文章:
1.??https://blog.csdn.net/Python_cocola/article/details/146590017???
2.??https://mp.weixin.qq.com/s/0SGHeV8OcXu8kFk68f-7Ww??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产在线观看av | 日韩视频一区二区 | 亚洲另类视频 | 国产高清视频在线观看播放 | 91亚洲国产成人久久精品网站 | www国产亚洲精品久久网站 | 日韩精品免费在线观看 | 深夜福利影院 | 99久久久久久99国产精品免 | 国产精品久久国产精品 | 国产精品毛片一区二区在线看 | 国产九一精品 | 免费一看一级毛片 | 三区在线 | 国产精品一区网站 | 激情五月婷婷在线 | 天天人人精品 | 精品视频一区二区三区 | 国产片侵犯亲女视频播放 | 日韩伦理一区二区 | 第四色影音先锋 | 欧美一区二区三区四区五区无卡码 | 午夜视频在线观看网站 | 亚洲五码久久 | 伊大人久久 | 欧美精品影院 | 日韩精品一区二区三区中文在线 | 一级片网站视频 | 精品国产乱码久久久久久老虎 | 中文字幕一区二区三区不卡在线 | 欧美日韩一区二区在线 | 2022精品国偷自产免费观看 | 成人毛片视频免费 | 亚洲国产成人精品久久 | 亚洲国产一区二区三区四区 | 伊人婷婷 | 国产精品毛片一区二区三区 | 欧美一区二区在线播放 | 天天爽夜夜爽精品视频婷婷 | 日韩不卡一区二区 | 亚洲一区二区在线视频 |