面向疾病管理的對話式人工智能 - Google研究院&DeepMind
摘要
雖然大型語言模型(LLMs)在診斷對話中顯示出潛力,但它們在有效管理推理方面的能力——包括疾病進展、治療反應和安全藥物處方——仍有待進一步探索。我們通過一種新的基于LLMs的代理系統推進了之前展示的Articulate Medical Intelligence Explorer(AMIE)的診斷能力,該系統針對臨床管理和對話進行了優化,整合了對疾病演變、多次患者就診經歷、治療反應以及藥物處方專業能力的推理。AMIE在權威臨床知識的基礎上進行推理,利用Gemini的長上下文能力,結合上下文檢索與結構化推理,使其輸出與相關的最新臨床實踐指南和藥物配方保持一致。在一項隨機、盲法的虛擬客觀結構化臨床考試(OSCE)研究中,AMIE與21名初級保健醫生進行了比較在100個多診次病例場景中,對初級保健醫生(PCPs)進行了測試,這些場景旨在反映英國國家衛生與臨床優化研究所(NICE)指南和《英國醫學雜志》(BMJ)最佳實踐指南。由專家醫生評估,在管理推理方面,人工智能助理(AMIE)不遜于PCPs,并且在治療的精確性和調查、以及其與管理計劃在臨床指南中的對齊和依據方面表現更佳。
為了衡量藥物推理能力,我們開發了RxQA,這是一個基于兩個國家藥品目錄(美國和英國)的多項選擇題基準,并由認證藥劑師驗證。雖然AMIE和PCPs都能從訪問外部藥物信息中受益,但在更高難度的問題上,AMIE的表現優于PCPs。盡管在實際應用前還需要進一步研究,但AMIE在各項評估中的強勁表現標志著在對話式人工智能作為疾病管理工具方面邁出了重要一步。
??https://arxiv.org/abs/2503.06074??
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何通過大型語言模型(LLMs)在疾病管理中進行有效的對話式人工智能(AI)應用,特別是在診斷推理和管理推理方面的能力。
- 研究難點:該問題的研究難點包括:診斷推理雖然重要,但管理推理更為復雜,涉及疾病的縱向演變、多次患者就診、治療反應和藥物處方的專業能力。此外,現有的研究大多集中在靜態的非對話環境中,缺乏對動態對話環境中的管理推理能力的評估。
- 相關工作:該問題的研究相關工作包括:早期的工作主要集中在將決策理論應用于醫學中,使用貝葉斯推斷和規則系統來模擬管理決策;近年來,基于認知心理學的方法被引入到臨床信息的處理和存儲中;LLMs在特定管理任務中表現出類似人類的能力,但在更廣泛的推理任務中表現較差。
研究方法
這篇論文提出了一種基于LLMs的代理系統,用于優化臨床管理和對話,特別是針對疾病管理中的管理推理。具體來說,
- 對話代理:該代理與患者進行快速、直觀且富有同情心的對話,并在多次就診中保持持續的對話狀態。對話代理通過一系列模型調用來生成最終響應,這些調用包括計劃響應、生成響應和修訂響應。
- Mx代理:該代理通過更廣泛的推理時間計算來規劃患者的護理。它連續分析患者的病例,從權威臨床知識庫中推理出臨床指南,并生成詳細且結構化的管理計劃。Mx代理的設計優化包括粗檢索、結構化生成和鏈式推理。
- 鏈式推理:在推理過程中,對話代理使用一系列模型調用來生成最終響應。每個調用都依賴于對話歷史、內部管理的狀態以及最新的管理計劃。
- 長上下文推理:Mx代理利用Gemini的長上下文推理能力,通過在生成過程中每一步都與上下文數據進行交互來實現豐富的跨文檔推理。
實驗設計
- 數據收集:實驗使用了模擬的多就診病例場景,這些場景由加拿大和印度的醫療提供者編寫,描述了患者病情在三次不同就診中的演變。總共使用了100個場景,涵蓋了五個醫學專業領域。
- 實驗設計:實驗采用隨機、盲法設計的虛擬客觀結構化臨床考試(OSCE),比較了AMIE和21名初級保健醫生(PCP)在100個多就診病例場景中的表現。每個場景包括三次文本聊天對話,分別對應于就診1、2和3,就診間隔約為2天。
- 樣本選擇:實驗涉及21名認證PCP和21名經過驗證的患者演員,分別來自印度和加拿大。PCP具有9年的住院醫師經驗,患者演員完成了每個場景的兩次就診,一次與AMIE,一次與PCP。
- 參數配置:Mx代理在實時用戶交互約束下優化,目標響應時間不超過一分鐘。對話代理使用Gemini 1.5 Flash作為基礎模型,并通過模擬的多就診醫患對話和其他臨床相關數據集進行訓練。
結果與分析
- 管理計劃質量:AMIE的管理計劃在所有15個評估軸和三次就診中至少與PCP的表現相當。在初次就診中,AMIE在計劃的整體適當性和提供適當的后續建議方面得分顯著高于PCP。
- 治療和檢查推薦的精確性:AMIE在每次就診結束時推薦治療和檢查的精確性均高于PCP。例如,在第一次就診中,AMIE的治療精確性得分為94%,而PCP為67%。
- 臨床指南的使用:AMIE在選擇適用的指南和推薦與指南一致的治療方面表現優于PCP。在初次就診中,AMIE選擇適用指南的得分為92%,而PCP為76%。
- 患者演員和專家醫生的偏好:在51個獨特的MXEKF評估軸組合中,AMIE被患者演員和專家醫生優先選擇的頻率顯著高于PCP,中位數勝率為42%。
- RxQA藥物推理準確性:在RxQA基準測試中,AMIE在高難度問題上的表現顯著優于PCP。在閉書設置中,AMIE的高難度問題準確率為50.6%,而PCP為41.5%。
總體結論
這篇論文展示了AMIE在多種管理推理挑戰中的一致性表現,能夠在多次就診中生成與認證PCP相當的管理計劃。盡管AMIE尚未準備好用于臨床護理,但這項研究標志著對話式AI作為疾病管理工具的重要一步。AMIE的精確治療和檢查推薦、指南選擇和一致性表現顯示出其在實際臨床環境中的潛力。未來的研究需要進一步驗證AMIE在實際醫療環境中的可行性和安全性。
論文評價
優點與創新
- 優化了AMIE的診斷能力:通過新的基于LLM的代理系統,AMIE在臨床管理和對話方面進行了優化,結合了疾病演變、多次患者就診、治療反應和藥物處方的專業能力。
- 利用Gemini的長上下文能力:AMIE利用Gemini的長上下文能力,結合上下文檢索和結構化推理,使其輸出與相關的最新臨床實踐指南和藥物配方保持一致。
- 隨機、盲法的虛擬OSCE研究:通過隨機、盲法的虛擬OSCE研究,將AMIE與21名初級保健醫生(PCP)在100個多就診案例場景中進行了比較,這些場景涵蓋了英國NICE指南和BMJ最佳實踐指南中的決策。
- RxQA藥物推理基準:開發了RxQA,一個基于兩個國家藥物配方(美國和英國)的多項選擇題基準,并由認證藥劑師驗證。
- 非劣效性評估:AMIE在管理推理方面的整體表現不亞于PCP,在治療的精確性和調查與治療計劃的一致性方面得分更高。
- 高難度問題的優勢:在RxQA的高難度問題上,AMIE的表現優于PCP,尤其是在開放書籍設置中。
不足與反思
- 患者演員的代表性問題:盡管患者演員是醫學教育中評估受訓臨床醫生的黃金標準,但它們并不代表臨床護理。
- 場景構建的局限性:臨床場景是構建的,意味著它們有明確的答案,并且在評分上存在可靠性限制。
- 就診間隔時間的靜態性:盡管場景在敘述中描述了數周或數月的時間跨度,但實際就診之間的間隔時間為1-2天,這可能增加了人類的表現。
- 文本界面的局限性:使用純文本界面進行AMIE的用戶界面與實際的患者護理存在顯著差異,例如電子提供者訂單輸入系統和藥房實踐警報。
- RxQA基準的局限性:選擇問題的過程可能會使問題偏向于較難的問題,并且不一定代表典型實踐。
- 未來工作的方向:需要進一步的研究來展示MXEKF在現實世界中的可靠性和心理測量特性,并描述其特征。
關鍵問題及回答
問題1:AMIE的Mx代理在處理患者病例時如何進行長上下文推理?
Mx代理利用Gemini的長上下文推理能力,通過在生成過程中每一步都與上下文數據進行交互來實現豐富的跨文檔推理。具體來說,Mx代理的設計包括以下幾個步驟:
- 粗檢索:首先,Mx代理使用Gecko 1B文本嵌入構建一個簡單的檢索器系統,索引所有臨床指南文檔。基于生成的查詢和摘要,初步過濾掉不相關的文檔。
- 結構化生成:其次,Mx代理生成四個初步的管理計劃草案。每個草案通過鏈式推理在一個模型調用中完成,確保生成的內容具有結構性和一致性。
- 精細合并:最后,Mx代理使用最終生成步驟將這些草案合并成一個最終的管理計劃。這一過程結合了長上下文推理和多文檔推理,確保生成的管理計劃全面且細致。
通過這種方式,Mx代理能夠在處理復雜病例時,整合和分析大量的臨床指南和患者信息,生成高質量的管理計劃。
問題2:在多就診OSCE研究中,AMIE和PCP在管理計劃質量方面有哪些具體表現差異?
在多就診OSCE研究中,AMIE和PCP在管理計劃質量方面的具體表現差異如下:
- 初次就診:在初次就診中,AMIE在計劃的整體適當性(88% vs. 74%,p=0.019)和提供適當的后續建議(100% vs. 98%,p<0.001)方面得分顯著高于PCP。然而,在后續就診中,這些差異不再顯著。
- 治療和檢查推薦的精確性:AMIE在每次就診結束時推薦治療和檢查的精確性均高于PCP。例如,在第一次就診中,AMIE的治療精確性得分為94%,而PCP為67%;在第二次和第三次就診中,AMIE的檢查精確性也顯著高于PCP。
- 臨床指南的使用:AMIE在選擇適用的指南(92% vs. 76%,p=0.016)和推薦與指南一致的治療(89% vs. 75%,p=0.007)方面表現優于PCP。在所有三次就診中,AMIE推薦與指南一致的治療的得分均高于PCP。
- 患者演員和專家醫生的偏好:在51個獨特的MXEKF評估軸組合中,AMIE被患者演員和專家醫生優先選擇的頻率顯著高于PCP,中位數勝率為42%。
總體而言,AMIE在初次就診中的表現顯著優于PCP,而在后續就診中,兩者表現相當。AMIE在治療和檢查推薦的精確性、臨床指南的使用以及患者和專家的偏好方面均表現出優勢。
問題3:RxQA藥物推理基準測試的結果如何顯示AMIE和PCP在高難度問題上的表現差異?
在RxQA藥物推理基準測試中,AMIE和高難度問題上的表現顯著優于PCP,具體結果如下:
- 高難度問題:在閉書設置中,AMIE的高難度問題準確率為50.6%,而PCP為41.5%(p=0.013);在開書設置中,AMIE的高難度問題準確率為57.9%,而PCP為47.8%(p<0.001)。這表明AMIE在高難度問題上的表現顯著優于PCP。
- 低難度問題:在閉書設置中,AMIE的低難度問題準確率為52.8%,而PCP為46.5%(p=0.147);在開書設置中,AMIE的低難度問題準確率為73.8%,而PCP為67.4%(p=0.071)。雖然AMIE在低難度問題上的表現也優于PCP,但差異不如高難度問題顯著。
- 外部知識資源的影響:無論是高難度還是低難度問題,AMIE和PCP在開書設置中的準確率均顯著高于閉書設置。這表明訪問外部知識資源對兩者的藥物推理能力都有顯著提升作用。
總體而言,AMIE在高難度問題上的表現顯著優于PCP,顯示出其在復雜藥物推理任務中的潛力。
參考文獻:
- 百川智能最新醫學大模型論文-利用先進的患者模擬器探索醫療"問診-診療"關系
- 京東開源醫學大模型“京醫千詢”Citrus: 利用專家認知路徑以支持高級醫療決策
- AMG-RAG自適應知識圖譜增強醫學問答:彌合大模型與動態醫學知識的差距 - 多倫多大學等
- PatientSeek: 海外首個基于Deepseek R1的"KG+LLM"結合的開源醫學法律推理模型 - WhyHow.AI
- AIPatient:基于EHR和知識增強大模型智能體工作流的模擬患者-密歇根、斯坦福、哈佛醫學院、山大、港大、醫科院、北大六院等
- 利用大模型提升護理與老年照護:一個AI驅動的框架 - 復旦、上交等
- 護理臨床智能決策的新穎方法:大語言模型與本地知識庫的整合
- Nature - 基于護理大模型的醫院門診接待機器人和護士的人機協同新范式
- 使用大模型指導患者創建高效全面的臨床護理信息
- 從“小白”到“專家”:大模型在腫瘤護理中的潛力探索
- [最新論文]探索大模型在乳腺癌腫瘤學護理領域中的應用潛力 - 谷歌DeepMind等
- 廈門·護理信息大會|首都醫科大學與柯基數據合作的NursGPT項目順利啟動!
- DrHouse虛擬醫生: 基于傳感器數據和專家知識賦能的大模型醫學診療推理系統 - 香港中文大學等
- AIPatient:基于EHR和知識增強大模型智能體工作流的模擬患者-密歇根、斯坦福、哈佛醫學院、山大、港大、醫科院、北大六院等
- AIR孵化|Agent Hospital首批AI醫生上線內測
- 2024醫學大模型應用及挑戰綜述 - Cornell、Duke、Berkeley、MIT等
- KG4Diagnosis - 知識圖譜增強的多智能體大模型在醫學診斷中的應用
- 上海經信局衛健委等發布2024年上海市醫療大模型應用示范場景需求列表
- CMAC中國行-走入“北京人工智能數據訓練基地”|醫學大模型產學研應用落地研討會
- 再發布!哈佛醫學院又一病理大模型TITAN
- Google DeepMind重磅推出AlphaFold3,預測了所有生命分子的結構和相互作用
- 大模型優化肝病臨床指南解讀:一種基于RAG的框架 - Nature NPJ
- 斯坦福&哈佛醫學院 - MMedAgent,一個用于醫療領域的多模態醫療AI智能體
- 喜訊|柯基數據中標兩個“大模型+醫學”國自然面上項目
- 哈佛醫學院&輝瑞推出基于知識圖譜的復雜醫學問答智能體MedAI
- 通過知識圖譜自動生成和豐富加速醫學知識發現 - 哈佛大學等
- 醫療保健和醫學領域的大模型綜述 - 斯坦福&加州大學
- 醫學GraphRAG:通過知識圖譜檢索增強實現安全醫療大語言模型 - 牛津大學最新論文
- 消除幻覺的知識圖譜增強醫學大模型 - "Nature"NPJ數字醫學雜志
- Almanac: 一種用于臨床醫學的檢索增強RAG大語言模型(2023vs2024版)
- “大模型+知識圖譜”雙輪驅動的醫藥數智化轉型新范式-OpenKG TOC專家談
- 醫學AI專家Anthropic CEO萬字長文預測人工智能將消除癌癥、人類壽命翻倍,世界變得更美好
- 醫療保健和醫學領域的大模型綜述 - 斯坦福&加州大學
- OpenAI o1模型的醫學初步研究:我們離人工智能醫生更近了嗎?
- 哈佛醫學院將生成式人工智能納入課程和臨床實踐,以培訓下一代醫生
本文轉載自??知識圖譜科技??,作者:Wolfgang
