成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML2025|清華醫(yī)工平臺提出大模型「全周期」醫(yī)學能力評測框架MultiCogEval

人工智能 新聞
近日,清華大學電子系醫(yī)工交叉平臺劉喜恩助理研究員領銜的醫(yī)學自然語言處理團隊,聯合多家單位在 ICML 2025 會議上發(fā)布最新研究成果,首次提出從醫(yī)學知識掌握到臨床問題解決的 “全周期” 大語言模型醫(yī)學能力評測框架 ——MultiCogEval。

本文工作由清華大學電子系醫(yī)工交叉平臺吳及教授和劉喜恩助理研究員所領導的醫(yī)學自然語言處理團隊,聯合北郵、科大訊飛、無問芯穹等單位共同完成。第一作者周宇軒為清華大學電子工程系博士生,其研究方向聚焦于大模型的醫(yī)療垂類能力評估與優(yōu)化,此前已提出 MultifacetEval(IJCAI 2024)與 PretexEval(ICLR 2025)等醫(yī)學知識掌握的多面動態(tài)評估框架體系。吳及教授和劉喜恩助理研究員所領導的醫(yī)學自然語言處理團隊長期致力于面向真實需求驅動的醫(yī)工交叉前沿技術研究與產業(yè)變革,曾在 2017 年聯合科大訊飛研發(fā)了首個以 456 分高分通過國家臨床執(zhí)業(yè)醫(yī)師資格考試綜合筆試測試 AI 引擎 Med3R(Nature Communications 2018)并在全國 400 多個區(qū)縣服務于基層醫(yī)療;2021 年聯合惠及智醫(yī)研發(fā)了首個基于全病歷內容分析的智慧醫(yī)保 AI 審核引擎,獲得國家醫(yī)保局智慧醫(yī)保大賽一等獎,并在全國多個省市進行示范應用。

大語言模型(Large Language Models,LLMs)技術的迅猛發(fā)展,正在深刻重塑醫(yī)療行業(yè)。醫(yī)療領域正成為這一前沿技術的 “新戰(zhàn)場” 之一。大模型具備強大的文本理解與生成能力,能夠快速讀取醫(yī)學文獻、解讀病歷記錄,甚至基于患者表述生成初步診斷建議,有效輔助醫(yī)生提升診斷的準確性與效率。

該技術有望在緩解醫(yī)生工作負擔、提升就診效率、優(yōu)化醫(yī)療管理水平等多個方面發(fā)揮重要作用。

雖然當前主流大語言模型在 MedQA 等醫(yī)療問答基準數據集上已取得 90% 以上的準確率,顯示出強大的語言理解與推理能力,但臨床一線的實際反饋表明,其在真實醫(yī)療場景中的應用效果仍不理想,普遍存在 “高分低能” 的問題。

在當前大語言模型不斷取得評測突破的背景下,一個關鍵問題亟需回答:為何其在真實臨床問題中仍難以發(fā)揮預期效能?

究其根本,是由于醫(yī)學知識覆蓋尚不充分,還是因缺乏有效的臨床應用能力?亦或是在面對復雜、動態(tài)的真實場景時,模型在臨床推理與決策層面存在顯著短板?抑或三者皆為限制其實際落地的關鍵因素?

近日,清華大學電子系醫(yī)工交叉平臺劉喜恩助理研究員領銜的醫(yī)學自然語言處理團隊,聯合多家單位在 ICML 2025 會議上發(fā)布最新研究成果,首次提出從醫(yī)學知識掌握到臨床問題解決的 “全周期” 大語言模型醫(yī)學能力評測框架 ——MultiCogEval。

該框架覆蓋大模型在不同認知層次下的醫(yī)學能力評測,為全面理解大語言模型在醫(yī)療領域的能力邊界并洞察其在真實臨床場景中面臨的核心短板,提供了全新視角與分析工具。

圖片

  • 論文標題:Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving
  • 論文鏈接:https://openreview.net/pdf?id=sgrJs7dbWC
  • 項目主頁:https://github.com/THUMLP/MultiCogEval

如何構建一個 “全周期” 醫(yī)學評測框架?

在大多數國家,醫(yī)學生通常需依次完成基礎醫(yī)學知識學習、臨床見習以及住院醫(yī)師規(guī)范化培訓,方可成為一名合格醫(yī)生。這一培養(yǎng)路徑契合人類認知能力的發(fā)展規(guī)律:先通過記憶與理解掌握基礎醫(yī)學知識,繼而在典型病例中運用所學進行具體分析,最終具備在真實臨床場景中進行規(guī)劃與問題求解的能力。與此相對應,針對臨床能力的評估體系也呈現出分層遞進的結構:從基礎課程考試,到臨床技能測評,再到住培階段的綜合結業(yè)考核,逐步覆蓋不同認知層次。

然而,現有醫(yī)學大模型評測集的任務設計多聚焦于單一類型(如問答、診斷等),盡管這類評估有助于比較不同模型間的性能差異,但通常僅覆蓋某一特定認知層次,難以全面反映大模型在醫(yī)學應用中所需的多層次、全流程能力。部分評測工作嘗試通過引入多種任務來覆蓋不同認知層次,但仍存在兩方面問題:其一,不同任務與認知層次之間缺乏明確對應關系;其二,各任務所涉及醫(yī)學知識點的覆蓋范圍、評測指標差異較大,導致跨任務的評估結果缺乏可比性與解釋力。

為應對上述挑戰(zhàn),研究人員提出了多認知層次醫(yī)學評測框架 MultiCogEval。該框架設計了一系列覆蓋醫(yī)學生培養(yǎng)全流程、對應不同認知層次的醫(yī)學任務,并結合醫(yī)學知識點對齊與評測指標統一等方法,實現了跨認知層次的評估可比性與結果可解釋性,為大模型醫(yī)學能力的系統性評估提供了有效支撐。 

圖片

(圖 1):人類醫(yī)師醫(yī)學認知能力發(fā)展流程與大模型醫(yī)學能力評測的對應關系

MultiCogEval:多認知層次醫(yī)學評測框架

受現有醫(yī)師培養(yǎng)流程啟發(fā),MultiCogEval 從三個認知層次考察大語言模型的臨床能力:

  • 基礎知識掌握:評測模型對基礎醫(yī)學知識的記憶與理解程度。在這一層次上,MultiCogEval 采用現有 LLM Benchmarks 中最常用的多項選擇題(Multiple-choice Questions)進行評測;
  • 綜合知識應用:評測模型綜合運用所學知識解決臨床任務的能力。與多項選擇題相比,真實臨床場景往往可用信息更少、決策空間更大,同時依賴多步推理才能得到結果。為了進一步逼近這些真實臨床場景的應用需求,MultiCogEval 從這三個維度出發(fā),分別設計了三種任務進行評測;
  • 場景問題求解:評測模型在真實臨床場景中主動規(guī)劃求解的能力。盡管現有的一些醫(yī)學評測集(如 MedQA)涉及對醫(yī)學案例的分析與診斷,但這些評測集往往是將所有診斷信息一次性通過題干的形式提供的。與之相比,真實臨床場景則依賴醫(yī)師基于已有的診斷信息進行主動決策,通過查體、實驗室檢查、影像學等方式收集診斷信息,最終綜合已有的診斷信息做出診斷。在這一層次上,MultiCogEval 采用一種模擬診斷任務,考察大模型在信息不足條件下主動規(guī)劃檢查檢驗,并完成診斷的能力。

圖片

(圖 2):多認知層次醫(yī)學評測框架 MultiCogEval

實驗結果:當前大模型的臨床場景問題求解能力仍待加強

基于該評測框架,研究人員對一系列知名大模型進行了系統的評測,觀察到多種 SOTA 大語言模型(如 GPT-4o、DeepSeek-V3 和 Llama3-70B)在低階任務(基礎知識掌握)上表現出色,準確率超過了 60%。然而,當在中階任務(綜合知識應用)上進行評估時,這些模型的性能均出現了顯著下降(約 20%)。此外,在高階任務(場景問題求解)中,所有模型的表現進一步下滑,其中表現最好的 DeepSeek-V3 的全鏈條診斷準確率也僅為 19.4%。這表明,盡管當前的大語言模型在基礎醫(yī)學知識方面已經具備較強的掌握能力,但在更高認知層級上,尤其是在應對真實醫(yī)療場景中的復雜問題時,仍面臨巨大挑戰(zhàn)。

圖片

(表 1):來自多個系列的通用大模型在 MultiCogEval 不同層次上的評測表現

為研究醫(yī)學領域 SFT 對大語言模型在不同認知層級上的影響,研究人員進一步對比了醫(yī)學大模型與對應基座模型,發(fā)現醫(yī)學領域 SFT 可以有效提升大模型的低階(基礎知識掌握)與中階(綜合知識應用)臨床能力(最高可達 15%)。然而,在高階任務(場景問題求解)上,它們未能取得顯著進步,有些甚至表現不如基座模型。

圖片

(圖 3):多個醫(yī)學專用大模型在 MultiCogEval 不同層次上的評測表現

最后,研究人員進一步研究了推理時擴展(inference-time scaling)在提升大語言模型醫(yī)學能力方面的效果。如表 2 所示,推理增強模型在所有認知層級上均優(yōu)于對應的指令微調模型,且在中階任務上的提升更為顯著(例如 DeepSeek-R1 在中階任務上提升了 23.1%,而在低階任務上僅提升了 9.8%)。然而,當前的推理增強模型仍然沒有完全解決高階任務,說明現有的模型在真實臨床場景中主動規(guī)劃、獲取決策信息進行推理的能力仍然有待進一步提升。

圖片

(表 2):推理增強模型與指令微調模型在不同層次任務上的性能對比

結語

本研究首次提出了多認知層次醫(yī)學能力評測框架 MultiCogEval,系統性地對大語言模型在基礎知識掌握、綜合知識應用和場景問題求解三大認知層級上的醫(yī)學能力進行評估。通過構建面向全流程醫(yī)學任務的評測體系,并在多個主流通用大模型與醫(yī)學專用模型上進行評測與分析,研究團隊發(fā)現:

  1. 當前大模型在低層級醫(yī)學任務表現較為出色,具備較強的醫(yī)學知識記憶與理解能力。但隨著任務認知復雜度的提升,模型在中高層級任務上的能力出現明顯下降,尤其是在高階臨床場景下的主動信息獲取與推理決策能力仍顯不足;
  2. 醫(yī)學領域微調在提升基礎與中階能力方面效果顯著,但對高階任務性能提升有限;
  3. 推理時擴展方法能夠顯著增強模型在各個層次醫(yī)學任務上的表現,特別是在復雜任務中,但仍不足以完全彌補模型在高階能力方面的短板。

MultiCogEval 的發(fā)布為后續(xù)的醫(yī)學大模型研發(fā)與評測奠定了堅實基礎。我們期待該框架能促進大模型在醫(yī)學領域的更加穩(wěn)健、可信、實用的落地,真正助力構建 “可信賴的 AI 醫(yī)生”。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-19 08:35:00

2025-05-15 13:40:13

數據訓練模型

2025-05-07 13:48:48

AIGC生成機器人

2025-05-28 11:42:14

模型框架AI

2024-07-19 10:39:38

2025-07-08 15:26:04

AI模型數據

2025-07-17 09:28:09

2025-06-11 13:44:44

自動化模型智能體

2024-02-23 11:27:00

數據技術

2023-06-20 13:44:49

清華推理

2025-05-07 09:12:00

模型研究LLM

2025-05-21 08:47:00

2025-05-14 13:23:19

數據模型AI

2025-07-10 14:50:24

機器學習AI模型

2025-07-02 09:21:30

2025-05-09 08:19:00

2025-05-07 13:49:19

模型AI架構

2025-06-30 08:36:00

AI模型強化學習

2025-07-16 09:15:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人免费毛片男人用品 | 国产伦精品一区二区三区照片 | 69视频在线播放 | 精品欧美一区二区三区久久久 | 亚洲精品成a人在线观看 | 午夜激情福利 | 91理论片午午伦夜理片久久 | 亚洲精品日韩丝袜精品 | 日韩中文字幕视频 | 久婷婷 | 精东影业一区二区三区 | 国产黄色片网站 | 午夜激情视频在线观看 | 精品影院 | 麻豆国产一区二区三区四区 | 国产精品6 | 国产一区二区久久 | 午夜精品999 | 国产精品成人免费精品自在线观看 | 一级做a爱片性色毛片 | 精品免费国产 | 高清视频一区二区 | 欧美成人极品 | 国产精品久久久久久亚洲影视 | 黄色网在线| 国产欧美精品一区二区 | 欧美一区三区 | 日本欧美精品 | 日韩在线播放视频 | 亚洲一区成人 | 黄色小视频在线观看 | 韩国理论在线 | 国产香蕉在线 | 精品一区二区三区三区 | 久操不卡 | 久久久国产精品人人片 | 国产美女自拍视频 | 又色又爽又黄gif动态图 | 日本在线免费观看 | 美女福利视频 | 欧美精品999 |