MedChain:通過交互式順序基準測試橋接大模型Agent與臨床實踐之間的差距
摘要
臨床決策制定(CDM)是一個復(fù)雜、動態(tài)的過程,對醫(yī)療保健交付至關(guān)重要,然而對于人工智能系統(tǒng)而言仍是一個重大挑戰(zhàn)。盡管基于大型語言模型(LLM)的代理已經(jīng)在使用許可考試和知識問答任務(wù)的一般醫(yī)學(xué)知識上進行了測試,但由于缺乏反映實際醫(yī)療實踐的綜合測試數(shù)據(jù)集,它們在現(xiàn)實世界場景中的CDM表現(xiàn)有限。為了彌補這一差距,我們提出了MedChain,一個包含12,163個臨床案例的數(shù)據(jù)集,涵蓋臨床工作流程的五個關(guān)鍵階段。MedChain以三個關(guān)鍵特征區(qū)別于現(xiàn)有基準測試,即現(xiàn)實世界臨床實踐的個人化、交互性和順序性。此外,為了應(yīng)對現(xiàn)實世界的CDM挑戰(zhàn),我們還提出了MedChain-Agent,一個整合了反饋機制和MCase-RAG模塊的AI系統(tǒng),以從過往案例中學(xué)習(xí)并適應(yīng)其響應(yīng)。MedChain-Agent在動態(tài)收集信息和處理順序臨床任務(wù)方面展現(xiàn)了非凡的適應(yīng)性,顯著超越了現(xiàn)有方法。相關(guān)數(shù)據(jù)集和代碼將在本文被接受后發(fā)布。
1 引言
在人工智能與醫(yī)療保健的交匯點,醫(yī)學(xué)面臨最復(fù)雜的挑戰(zhàn)之一:臨床決策制定(CDM)。在醫(yī)療服務(wù)過程中,CDM不僅需要綜合多種數(shù)據(jù)來源并持續(xù)評估不斷發(fā)展的臨床場景,還需要基于證據(jù)的診斷和治療判斷(Sutton等人,2020年)。盡管這對最佳患者護理至關(guān)重要,但這一復(fù)雜過程對醫(yī)療專業(yè)人員提出了重大的認知要求,使其成為人工智能輔助的理想候選(Sendak等人,2020年)。
基于大型語言模型(LLM)的代理的最新進展(OpenAI,2023年;Team等人,2023年;Gu等人,2023年;Shinn等人,2024年;Guan等人,2023年;Zhuang等人)已成為復(fù)雜決策任務(wù)的有效解決方案,從軟件開發(fā)(Qian等人,2024年)到辦公自動化(Wang等人,2024c年)。在醫(yī)學(xué)領(lǐng)域,這些代理在醫(yī)學(xué)執(zhí)照考試(Singhal等人,2023年;Pal等人,2022年)和基于知識的評估(Gilson等人,2023年;Eriksen等人,2023年)中表現(xiàn)出色。盡管大型語言模型在這些評估中的得分一直遠高于及格門檻(Singhal等人……(2023年),重要的是要認識到,這些評估在三個關(guān)鍵方面未能捕捉到現(xiàn)實世界臨床決策支持系統(tǒng)(CDM)的復(fù)雜性。
首先,這些基準測試很少考慮患者特定信息,如過去的病史和當(dāng)前病情(Pal等人,2022年),這在真實臨床場景中顯著影響臨床決策。這種遺漏未能捕捉到常常塑造個性化診斷的微妙背景。其次,不同于真實臨床場景中的決策建立在先前步驟的基礎(chǔ)上,現(xiàn)有的基準測試將臨床任務(wù)呈現(xiàn)為獨立問題(Schmidgall等人,2024年),忽略了診斷過程中關(guān)鍵的相互依賴性。實際上,臨床決策是一個順序過程,每一步都依賴于前一步,一個階段的錯誤可能會深刻地影響后續(xù)決策。第三,大多數(shù)基準測試一次性提供所有相關(guān)信息,提供一個靜態(tài)的、全面的數(shù)據(jù)集(Tu等人,2024年)。然而,真實的臨床工作流程需要通過持續(xù)的病人互動進行多輪動態(tài)信息收集。
為了解決這些關(guān)鍵缺口,我們引入了MedChain,這是一個旨在評估基于大型語言模型(LLM)的代理在真實世界臨床環(huán)境中表現(xiàn)的新穎基準測試。
具體來說,MedChain 包含12,163個多樣化的病例,涵蓋19個醫(yī)學(xué)專業(yè)和156個子類別,包括7,338張帶有相應(yīng)報告的醫(yī)學(xué)影像。每個病例都要經(jīng)過五個關(guān)鍵階段:專業(yè)轉(zhuǎn)診、病史采集、檢查、診斷和治療。與現(xiàn)有的基準測試不同,MedChain 獨特地強調(diào)三個關(guān)鍵特征。1)個性化:每個病例都包含詳細的患者特定信息。最初,代理人僅獲得患者的主訴和基本信息。2)互動性:必須通過患者動態(tài)咨詢積極收集信息。3)連續(xù)性:每個階段的決策會影響后續(xù)步驟。只有在代理人獨立完成了所有五個階段后,才會對整體診斷過程進行評估。
MedChain-Agent:鑒于這個基準測試所呈現(xiàn)的新穎特征和挑戰(zhàn),現(xiàn)有的Agent框架難以充分解決這些問題。為了克服這些限制,我們提出MedChain-Agent,一種多代理協(xié)作框架,使具備反饋機制的LLM和MedCase-RAG能夠動態(tài)收集信息并處理順序臨床任務(wù)。具體來說,MedChain-代理人促進三種專業(yè)代理類型之間的協(xié)同互動:負責(zé)特定任務(wù)專業(yè)知識的通用代理人、用于洞察合成的總結(jié)代理以及用于迭代完善的反饋代理。這種分層迭代的方法確保決策是徹底分析和多元視角的產(chǎn)物。此外,為了應(yīng)對需求基于證據(jù)的研究和患者特定因素整合的CDM(臨床決策模型)的多面性,我們將一種新穎的MedCase-RAG模塊納入我們的MedChain-Agent框架。與傳統(tǒng)的醫(yī)學(xué)RAG方法不同,MedCase-RAG動態(tài)擴展其數(shù)據(jù)庫,并采用結(jié)構(gòu)化方法進行數(shù)據(jù)表示,將每個醫(yī)學(xué)案例映射到一個12維的特征向量。該系統(tǒng)能夠高效檢索相關(guān)案例,并幫助模型做出明智的決策。
我們的貢獻總結(jié)如下:
● 我們首次提出了一個CDM基準,MedChain,全面評估基于大型語言模型(LLM)的代理的診斷能力,緊密反映現(xiàn)實世界中的患者護理。
● 我們提出了一個基于CDM特性的多代理框架。該系統(tǒng)能夠高效檢索相關(guān)案例,并幫助模型做出明智的決策。
● 通過廣泛的實驗,我們展示了MedChain和MedChain-Agent框架在提高臨床決策準確性和可靠性方面的有效性
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何在臨床決策(CDM)中有效地利用大型語言模型(LLMs)。臨床決策是醫(yī)療交付過程中至關(guān)重要的一環(huán),然而,現(xiàn)有的LLMs在真實世界場景中的表現(xiàn)有限,主要由于缺乏全面且反映實際醫(yī)療實踐的測試數(shù)據(jù)集。
- 研究難點:該問題的研究難點包括:現(xiàn)有基準測試很少考慮患者特定信息、臨床任務(wù)之間缺乏依賴性以及靜態(tài)的數(shù)據(jù)集無法反映動態(tài)的患者互動。
- 相關(guān)工作:該問題的研究相關(guān)工作有:現(xiàn)有的醫(yī)學(xué)領(lǐng)域的LLMs評估主要集中在通過結(jié)構(gòu)化評估測試一般醫(yī)學(xué)知識,但這些基準測試未能捕捉到真實世界臨床決策的三個關(guān)鍵方面:個性化、互動性和順序性。
研究方法
這篇論文提出了MedChain和MedChain-Agent來解決臨床決策中的LLMs評估問題。具體來說,
- MedChain:MedChain是一個包含12,163個臨床病例的數(shù)據(jù)集,覆蓋了19個醫(yī)學(xué)專業(yè)和156個子類別,每個病例經(jīng)過五個關(guān)鍵階段:專科轉(zhuǎn)診、病史采集、檢查、診斷和治療。MedChain的獨特特性包括個性化、互動性和順序性。
- MedChain-Agent:MedChain-Agent是一個多代理協(xié)作框架,結(jié)合了反饋機制和MedCase-RAG模塊,以動態(tài)收集信息和處理順序臨床任務(wù)。該框架包括三種專門的代理類型:通用代理、總結(jié)代理和反饋代理。通用代理負責(zé)特定任務(wù)的專家知識,總結(jié)代理整合討論和分析,反饋代理提供建設(shè)性反饋并迭代改進決策。
- MedCase-RAG:MedCase-RAG是一種新穎的檢索增強生成技術(shù),專為醫(yī)學(xué)背景定制。它將每個醫(yī)學(xué)病例映射到一個12維特征向量,并使用文本嵌入模型對“癥狀描述”進行量化,作為密集檢索任務(wù)的主要鍵。此外,MedCase-RAG還包含一個動態(tài)數(shù)據(jù)庫擴展機制,以不斷豐富其知識庫。
實驗設(shè)計
- 數(shù)據(jù)收集:數(shù)據(jù)集來源于中國醫(yī)療網(wǎng)站“ii Yi”,包含超過20,000個驗證過的臨床病例,覆蓋28個疾病類別。這些病例經(jīng)過專業(yè)醫(yī)生的驗證和去識別處理,以確保患者隱私。
- 質(zhì)量控制:實施了一個嚴格的質(zhì)量控制過程,涉及五位具有超過10年臨床經(jīng)驗的高級醫(yī)師。評估過程隨機抽查了6,000個病例(數(shù)據(jù)集的49.3%),每個病例在多個維度上進行評估,包括疾病流行度、臨床相關(guān)性、病史準確性、診斷程序的適當(dāng)性、診斷的正確性和治療建議的適宜性。
- 臨床工作流程模擬:MedChain模擬了完整的臨床工作流程,包括五個順序任務(wù):專科轉(zhuǎn)診、病史采集、檢查、診斷和治療。每個階段的結(jié)果作為后續(xù)階段的輸入,創(chuàng)建了一個依賴關(guān)系,后續(xù)決策受到前面階段質(zhì)量的 影響。
- 交互環(huán)境:開發(fā)了一個交互環(huán)境,模擬醫(yī)生與患者的咨詢過程。使用本地大型語言模型“gemma2(9b)”作為患者代理,初始化時提供預(yù)定義的病例信息,但不了解實際診斷,從而模擬真實患者的體驗。
結(jié)果與分析
- 單代理系統(tǒng):在單代理系統(tǒng)中,GPT-4o-mini和InternVL2的平均得分分別為0.4442和0.3920,表明即使在先進模型中,順序決策任務(wù)也具有挑戰(zhàn)性。
- 多代理系統(tǒng):基于InternVL2的多代理系統(tǒng)(如MedAgent和MDAgent)的性能優(yōu)于其單代理對應(yīng)物,但仍未達到MedChain-Agent的水平。MedChain-Agent的平均得分為0.5269,顯著提高了決策質(zhì)量和可靠性。
- 開源LLMs:MedChain-Agent框架與開源LLMs的結(jié)合顯示出優(yōu)于專有模型的性能,表明框架可以充分利用開源LLMs的優(yōu)勢。
- 消融研究:移除個性化、互動性和順序性特征后,模型性能在不同任務(wù)上表現(xiàn)出不同程度的下降,驗證了這些特征在模擬真實世界臨床決策過程中的重要性。反饋機制和MedCase-RAG模塊的移除也對性能產(chǎn)生了顯著影響,表明它們在優(yōu)化框架能力方面的互補性。
總體結(jié)論
這篇論文介紹了MedChain,一個用于評估大型語言模型在臨床決策中的新穎基準,以及MedChain-Agent,一個旨在應(yīng)對真實世界醫(yī)學(xué)場景復(fù)雜性的創(chuàng)新多代理框架。通過將個性化、順序性和互動性納入評估過程,MedChain-Agent展示了在順序臨床決策任務(wù)中的卓越性能,甚至在結(jié)合開源LLMs時優(yōu)于專有模型。這項研究為評估和發(fā)展醫(yī)療AI系統(tǒng)設(shè)定了新的標準,為其在臨床實踐中的負責(zé)任整合鋪平了道路。
論文評價
優(yōu)點與創(chuàng)新
- 全面的評估框架:MedChain是第一個旨在全面評估大型語言模型在臨床決策中能力的基準,緊密反映了現(xiàn)實世界中的患者護理。
- 多代理框架:提出了一個基于臨床決策特征的多代理框架,該系統(tǒng)能夠高效檢索相關(guān)病例并幫助模型做出明智的決策。
- 反饋機制:引入了反饋機制,使每個任務(wù)的輸出結(jié)果都能得到后續(xù)任務(wù)的評估和反饋,從而持續(xù)改進決策質(zhì)量。
- MedCase-RAG模塊:提出了一個新的檢索增強生成(RAG)技術(shù),通過結(jié)構(gòu)化的數(shù)據(jù)表示和動態(tài)數(shù)據(jù)庫擴展機制,提高了決策能力。
- 個性化、交互性和順序性:MedChain強調(diào)個性化、交互性和順序性,更好地模擬了現(xiàn)實世界中的臨床決策過程。
- 實驗驗證:通過廣泛的實驗,證明了MedChain和MedChain-Agent框架在提高臨床決策準確性和可靠性方面的有效性。
不足與反思
- 數(shù)據(jù)源多樣性:MedChain基準是從中國醫(yī)療網(wǎng)站“iiYi”獲取的12,163份電子健康記錄,盡管數(shù)據(jù)集廣泛且覆蓋了19個醫(yī)學(xué)專業(yè)和156個子類別,但它僅來自單一來源。未來工作將納入來自不同地區(qū)或醫(yī)療系統(tǒng)的額外數(shù)據(jù)源,以進一步豐富數(shù)據(jù)集,提供更廣泛的臨床場景并增強基準的泛化能力。
- 患者交互模擬:在交互環(huán)境中,病史采集階段的患者響應(yīng)是由Gemma 2語言模型生成的。雖然這種方法確保了評估的一致性和可控性,但真實患者的交互可能更加多樣化和復(fù)雜。未來工作可以探索更先進的患者模擬器或納入真實的對話數(shù)據(jù),以捕捉更廣泛的溝通風(fēng)格和行為。
關(guān)鍵問題及回答
問題1:MedChain-Agent框架中的多代理系統(tǒng)是如何設(shè)計的?各自承擔(dān)什么角色?
MedChain-Agent框架包含三種主要的代理類型,每種代理在醫(yī)學(xué)決策過程中扮演不同的角色:
- 通用代理(General Agents):這些代理根據(jù)特定任務(wù)的要求進行招募,具備各醫(yī)學(xué)專業(yè)的綜合知識和分診協(xié)議。例如,在任務(wù)1(專科轉(zhuǎn)診)中,通用代理能夠評估病例的緊急程度并將患者分配到適當(dāng)?shù)目剖摇?/li>
- 總結(jié)代理(Summarizing Agent):在每個決策階段結(jié)束時,總結(jié)代理會整合通用代理的討論和分析,將集體專業(yè)知識合成一個連貫的總結(jié),并為每個任務(wù)提供最終決策,類似于醫(yī)學(xué)背景下高級醫(yī)師或科主任的角色。
- 反饋代理(Feedback Agent):反饋代理在整個過程中評估每個任務(wù)的輸出,提供建設(shè)性反饋并在必要時建議迭代改進。通過這種方式,反饋代理創(chuàng)建了一個動態(tài)的、自我糾正的系統(tǒng),不斷精煉其決策能力。
這種分層、迭代的 approach 確保決策是經(jīng)過徹底分析和多樣化視角的綜合結(jié)果。
問題2:MedCase-RAG模塊在MedChain-Agent框架中的作用是什么?它如何增強決策能力?
MedCase-RAG模塊是一種新穎的檢索增強生成技術(shù),專為醫(yī)學(xué)背景定制。其主要作用體現(xiàn)在以下幾個方面:
- 數(shù)據(jù)表示:MedCase-RAG將每個醫(yī)學(xué)病例映射到一個12維的特征向量,包括年齡、性別、患者描述、癥狀描述、病史和患者圖像等關(guān)鍵屬性。這種結(jié)構(gòu)化的表示方式使得病例編碼更加全面和標準,便于準確和細致的檢索。
- 動態(tài)檢索:在處理新病例時,MedCase-RAG首先提取并量化“癥狀描述”這一最具代表性的特征,然后通過文本嵌入模型進行量化處理。接著,使用余弦相似度計算在相關(guān)醫(yī)學(xué)部門中進行相似性搜索,選擇最相似的前三個病例作為當(dāng)前檢索結(jié)果,從而提供更全面的決策依據(jù)。
- 數(shù)據(jù)庫擴展:MedCase-RAG還包含一個動態(tài)數(shù)據(jù)庫擴展機制,隨著患者完成醫(yī)療過程并康復(fù),其病例信息會被重新引入數(shù)據(jù)庫作為偽數(shù)據(jù)。這種方法允許系統(tǒng)從新病例中學(xué)習(xí)并適應(yīng)不斷演變的醫(yī)學(xué)知識和實踐。
通過這些方法,MedCase-RAG顯著增強了MedChain-Agent框架的決策能力,使其能夠更準確地檢索相關(guān)病例并做出明智的決策。
問題3:MedChain數(shù)據(jù)集的質(zhì)量控制過程是如何進行的?有哪些關(guān)鍵步驟?
MedChain數(shù)據(jù)集的質(zhì)量控制過程涉及以下關(guān)鍵步驟:
- 數(shù)據(jù)來源和處理:數(shù)據(jù)集來源于中國醫(yī)療網(wǎng)站“ii Yi”,包含超過20,000個驗證過的臨床病例,覆蓋28個疾病類別。這些病例經(jīng)過專業(yè)醫(yī)生的驗證和去識別處理,以確保患者隱私。
- 樣本選擇:質(zhì)量控制過程隨機抽查了6,000個病例(數(shù)據(jù)集的49.3%),每個病例在多個維度上進行評估,包括疾病流行度、臨床相關(guān)性、病史準確性、診斷程序的適當(dāng)性、診斷的正確性和治療建議的適宜性。
- 評估標準:采用標準化評分系統(tǒng)對每個病例進行量化評估,涵蓋疾病流行度、臨床相關(guān)性、病史準確性、診斷程序的適當(dāng)性、診斷的正確性和治療建議的適宜性等維度。使用Cohen's kappa系數(shù)計算評估者之間的一致性。
- 結(jié)果分析:質(zhì)量評估結(jié)果顯示,整體質(zhì)量合格率為94.7%,所有評估維度的一致性均在92.9%到97.2%之間,表明評估標準的一致性和高標準。Cohen's kappa系數(shù)為0.82,表明評估者之間存在強一致性。
- 數(shù)據(jù)處理:不符合標準的病例(5.3%)經(jīng)過修訂或被排除在最終數(shù)據(jù)集之外,以維護數(shù)據(jù)集的完整性和質(zhì)量標準。
通過這些嚴格的質(zhì)量控制步驟,MedChain數(shù)據(jù)集確保了高標準的數(shù)據(jù)完整性和臨床相關(guān)性,為評估LLMs在臨床決策中的表現(xiàn)提供了可靠的基礎(chǔ)。
本文轉(zhuǎn)載自??知識圖譜科技??,作者:知識圖譜科技
