MALADE:基于大模型Agent智能體與RAG技術(shù)進行藥物警戒的不良事件AE識別
MALADE: Orchestration of LLM-powered Agents with RAG for Pharmacovigilance
摘要
在大型語言模型(LLMs)的時代,鑒于它們卓越的文本理解和生成能力,開發(fā)基于LLMs的新方法用于可信醫(yī)學知識的綜合、提取和總結(jié)是前所未有的機遇。本文關(guān)注藥物警戒(PhV)問題,其重要性和挑戰(zhàn)在于從多樣化的文本資源(如醫(yī)學文獻、臨床筆記和藥品標簽)中識別不良藥物事件(ADEs)。不幸的是,這一任務(wù)受到多種因素的阻礙,包括藥物和結(jié)果的術(shù)語差異,以及ADEs描述通常淹沒在大量敘述性文本中。我們提出了MALADE,首個有效利用大型語言模型與檢索增強生成技術(shù)進行藥品標簽數(shù)據(jù)中ADEs提取的協(xié)作多代理系統(tǒng)。該技術(shù)涉及將相關(guān)信息從文本資源中提取出來,并增強對大型語言模型的查詢,指導(dǎo)其生成與增強數(shù)據(jù)一致的響應(yīng)。MALADE是一種通用的、不依賴于特定大型語言模型的架構(gòu),其獨特功能包括:(1)利用多種外部資源,如醫(yī)學文獻、藥品標簽和FDA工具(例如開放FDA藥物信息API)、(2)以結(jié)構(gòu)化格式提取藥物與結(jié)果之間的關(guān)聯(lián)以及關(guān)聯(lián)的強度,以及(3)為已建立的關(guān)聯(lián)提供解釋。MALADE采用GPT-4 Turbo或GPT-4o和FDA藥物標簽數(shù)據(jù)進行實例化,在針對ADE的真值表OMOP上,其ROC曲線下面積(AUC)達到0.90,展示了其有效性。我們的實現(xiàn)利用了Langroid多智能體大型語言模型框架,可在???https://github.com/jihyechoi77/malade??找到。
??https://arxiv.org/pdf/2408.01869??
引言
藥物警戒(PhV)是識別和預(yù)防藥品上市后由藥品引起的不良藥物事件(ADEs)的科學。藥物警戒對制藥行業(yè)和公共衛(wèi)生極為重要,因為它旨在通過檢測新的安全問題并在必要時進行干預(yù)來保護患者的福祉。
藥物警戒(PhV)中的核心問題是不良事件(ADE)提取:給定一個藥物類別C和一個不良事件E,確定C是否(以及多大程度上)與E相關(guān)聯(lián)。這項任務(wù)需要分析來自各種來源的大量文本數(shù)據(jù),如患者病歷、臨床筆記、社交媒體、自發(fā)報告系統(tǒng)、藥品標簽、醫(yī)學文獻和臨床試驗報告。除了這些來源的文本量龐大之外,ADE提取還因藥物名稱和結(jié)果的變異性,以及ADE描述通常隱藏在大量敘述文本中的事實而變得更加復(fù)雜[14]。
傳統(tǒng)上,各種經(jīng)典的自然語言處理(NLP)和深度學習技術(shù)已被用于解決此問題[22, 21, 35, 2]。與經(jīng)典的NLP方法相比,當今最好的大型語言模型(LLMs)(甚至較弱的開源/本地LLMs[36, 11])在文本理解和生成能力方面取得了顯著進步,利用這些模型不僅可以改進現(xiàn)有的ADE提取方法,還可以考慮之前無法使用的數(shù)據(jù)來源。最近嘗試將LLMs應(yīng)用于ADE提取僅利用現(xiàn)成的ChatGPT[38],但其性能有限,且提取理由的推理不一致[32]。這些限制主要源于兩個因素:(a)準確的ADE提取需要訪問特定數(shù)據(jù)源,而LLMs可能沒有“見過”。 在預(yù)訓(xùn)練期間,依賴大型語言模型(LLM)的“內(nèi)置”知識會產(chǎn)生不準確的結(jié)果;以及(b)由于大型語言模型是概率性下一個詞元預(yù)測器,如果未經(jīng)仔細地將任務(wù)分解為更簡單的子任務(wù),或者沒有機制來驗證和糾正它們的響應(yīng),則可能會產(chǎn)生錯誤或不可靠的結(jié)果。
本文中,我們介紹了MALADE2(由LLM驅(qū)動的多智能體用于不良事件提取),這是首個有效的不良事件提取多智能體檢索增強生成(RAG)系統(tǒng)。我們的方法利用兩項關(guān)鍵技術(shù)分別解決上述兩個限制:(a)RAG,通過用相關(guān)文本數(shù)據(jù)片段增強輸入查詢,并提示大型語言模型生成與增強信息一致的響應(yīng)[15];(b)策略性地協(xié)調(diào)多個基于大型語言模型的智能體,每個智能體負責整體不良事件提取任務(wù)中相對較小的子任務(wù)[41]。具體來說,我們的系統(tǒng)有專門處理這些子任務(wù)的智能體(見圖1):(1)從醫(yī)療數(shù)據(jù)庫(例如,MIMIC-IV)中識別每個藥物類別的代表性藥物,(2)從外部文本知識庫(例如,F(xiàn)DA藥品標簽數(shù)據(jù)庫)收集有關(guān)這些藥物的副作用信息,最后,(3)編寫總結(jié)藥物類別對不良事件影響的最終答案。每個智能體被分配一個特定的子任務(wù),并與其它智能體合作完成不良事件識別的最終目標。此外,我們通過將每個代理與一個評論家代理配對來進一步提高多代理系統(tǒng)的可靠性,評論家代理的作用是驗證其對應(yīng)代理的行為和響應(yīng)。
該系統(tǒng)雖然在這里專門用于藥物不良反應(yīng)(ADE)的提取,但它展示了如何使用多代理方法生成可信的、基于證據(jù)的總結(jié)和信心分數(shù),以應(yīng)對需要綜合來自多個臨床知識和數(shù)據(jù)來源的證據(jù)的挑戰(zhàn)性醫(yī)學問題。因此,MALADE 可以被視為一個案例研究,說明了一種可能隨后應(yīng)用于臨床決策支持(PhV)中其他問題的方法,包括識別可能的藥物相互作用,以及 PhV 以外的臨床問題,如識別臨床記錄中已知的感興趣病狀的癥狀。
總之,我們的論文做出了以下貢獻。
- 精確評估。與僅生成一個二進制標簽來指示藥物類別 C 是否與不良事件 E 相關(guān)聯(lián)的較簡單系統(tǒng)不同,我們的方法生成不同的分數(shù),包括一個信心分數(shù),該分數(shù)表示大型語言模型對其標簽分配的信心程度。這些分數(shù)允許我們根據(jù)既定的觀察性醫(yī)療成果伙伴計劃(OMOP)關(guān)于常見藥物類別相關(guān)聯(lián)的 ADE 的真實表格進行嚴格的定量評估[19]。我們使用 GPT-4 Turbo 實現(xiàn)了大約 0.85 的曲線下面積(AUC),而使用 GPT-4o 實現(xiàn)了 0.90(第 5 節(jié))。據(jù)我們所知,這是基線方法中表現(xiàn)最好的,盡管直接比較可能有限。
- 生成有理有據(jù)的回應(yīng)和理由。MALADE的設(shè)計提供了對于高風險應(yīng)用如藥物不良反應(yīng)(ADE)識別至關(guān)重要的關(guān)鍵特性:(1)一種結(jié)構(gòu)化的藥物與結(jié)果關(guān)聯(lián)格式,包括表示關(guān)聯(lián)強度和不良事件罕見性的分數(shù);這對于確保提取關(guān)聯(lián)信息的穩(wěn)健下游處理非常重要。(2)對提取的藥物與結(jié)果關(guān)聯(lián)提供理由,使人類專家能夠理解并驗證這些關(guān)聯(lián)。這得益于MALADE架構(gòu)中的RAG組件,它允許利用各種外部來源,如醫(yī)學文獻、藥品標簽、FDA工具(例如OpenFDA藥品信息API),以及常見的臨床數(shù)據(jù)來源如OMOP或PCORI,甚至可用的特定電子健康記錄(EHR)系統(tǒng)。可觀測性,即完整的、詳細的代理間對話和中間步驟日志;這些對于調(diào)試和審計系統(tǒng)行為至關(guān)重要。
- 關(guān)于醫(yī)療保健領(lǐng)域中機器學習的可泛化見解。我們提出的多代理架構(gòu)不依賴于大型語言模型和數(shù)據(jù)源,并且基于旨在成為多個基于大型語言模型的代理協(xié)調(diào)的通用構(gòu)建塊的設(shè)計原語(第3節(jié))。因此,盡管MALADE專門用于藥物不良反應(yīng)(ADE)識別,我們的設(shè)計方法學提供了一個通用的藍圖,用于有效構(gòu)建多智能體系統(tǒng),以進行可信的醫(yī)療知識合成和總結(jié),具有廣泛的醫(yī)療應(yīng)用。
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何從藥物標簽數(shù)據(jù)中提取不良藥物事件(ADE)信息。藥物警戒(PhV)是識別和預(yù)防藥品上市后引起的不良藥物事件的科學,其重要性在于保護患者的健康。
- 研究難點:該問題的研究難點包括:藥物和結(jié)果的術(shù)語不一致、ADE描述通常埋藏在大量敘述性文本中、以及現(xiàn)有的自然語言處理(NLP)和深度學習技術(shù)在處理這些復(fù)雜任務(wù)時的局限性。
- 相關(guān)工作:該問題的研究相關(guān)工作包括使用大規(guī)模研究計劃(如Sentinel、OMOP和OHDSI)開發(fā)的因果發(fā)現(xiàn)方法,以及利用社交論壇構(gòu)建ADE預(yù)測模型的研究。最近的研究嘗試將大型語言模型(LLMs)應(yīng)用于ADE提取,但存在知識局限性和單一LLM推理不一致的問題。
研究方法
這篇論文提出了MALADE,第一個有效的多代理系統(tǒng),利用LLM和檢索增強生成(RAG)技術(shù)進行藥物標簽數(shù)據(jù)中的ADE提取。具體來說,
檢索增強生成(RAG):RAG技術(shù)通過向LLM輸入查詢時增加相關(guān)文本數(shù)據(jù),并指導(dǎo)LLM生成與增強數(shù)據(jù)一致的回答。RAG的基本思想是當向LLM代理提出查詢時,從文檔存儲中檢索最相關(guān)的文檔片段,并將原始查詢與這些片段一起增強為新的提示,然后讓LLM基于這些片段回答原始查詢。
多代理系統(tǒng):MALADE系統(tǒng)由多個LLM驅(qū)動的代理組成,每個代理負責一個相對較小的子任務(wù)。具體子任務(wù)包括:從醫(yī)學數(shù)據(jù)庫中識別代表性藥物、從外部文本知識庫中收集藥物的副作用信息、以及綜合藥物類別對不良健康結(jié)果的影響。每個代理與其對應(yīng)的評論家代理配對,評論家代理驗證主要代理的行為和響應(yīng)。
- Agent-Critic交互:Agent-Critic交互模式是MALADE系統(tǒng)的核心設(shè)計模式。Agent負責處理外部輸入和輸出,Critic則驗證Agent的推理步驟和遵守指令的情況,并提供反饋。Agent根據(jù)反饋迭代生成響應(yīng),直到Critic滿意為止。
實驗設(shè)計
- 數(shù)據(jù)收集:實驗使用了OMOP評估地面真值任務(wù)(OMOP ADE任務(wù)),該任務(wù)為每個(藥物類別,健康結(jié)果)對分配三個標簽之一:“增加”、“減少”或“無效果”。
- 實驗設(shè)置:評估了兩種LLM:GPT-4 Turbo和GPT-4o。對于每種LLM,進行了基于效果的分類和基于ADE的分類的AUC和F1評分分析。
- 實驗步驟:
STEP 1:通過查詢FDA的國家藥品代碼(NDC)數(shù)據(jù)庫,找到屬于藥物類別的廣泛藥物列表,并使用MIMIC-IV臨床數(shù)據(jù)庫中的處方率篩選出最常見的三種藥物。
STEP 2:每個代表性藥物的Agent(DrugAgent)生成關(guān)于其對健康結(jié)果影響的自由文本摘要,參考最新的外部藥物參考來源(如FDA藥物標簽數(shù)據(jù)庫)。
STEP 3:類別Agent(CategoryAgent)結(jié)合藥物級別的信息,生成結(jié)構(gòu)化報告,包括藥物類別對健康結(jié)果影響的標簽、置信度得分、風險水平和證據(jù)強度。
結(jié)果與分析
ADE識別效果:MALADE在區(qū)分ADE和非ADE方面表現(xiàn)良好,基于效果的AUC和F1評分分別為0.851和0.609(GPT-4 Turbo),基于ADE的AUC和F1評分分別為0.851和0.556(GPT-4 Turbo)。
Agent-Critic交互的有效性:通過消融實驗,發(fā)現(xiàn)Critic顯著提高了系統(tǒng)的可靠性,特別是在沒有強證據(jù)的情況下(即地面真值為“無效果”的情況)。
- 理由提供的洞察:MALADE提供的理由與人類專家的推理一致,幫助理解系統(tǒng)的失敗模式。例如,CategoryAgent偶爾會基于弱證據(jù)過高估計藥物類別的風險。
總體結(jié)論
這篇論文提出的MALADE系統(tǒng)通過多代理協(xié)作和檢索增強生成技術(shù),顯著提高了從藥物標簽數(shù)據(jù)中提取ADE信息的準確性和可靠性。MALADE不僅在ADE識別任務(wù)中表現(xiàn)出色,還為未來的藥物警戒研究和更廣泛的醫(yī)療任務(wù)提供了一個通用的多代理系統(tǒng)架構(gòu)。
論文評價
優(yōu)點與創(chuàng)新
- 多代理架構(gòu):MALADE是第一個有效的多代理檢索增強生成(RAG)系統(tǒng),專門用于藥物標簽數(shù)據(jù)中的不良事件(ADE)提取。
- 外部知識利用:系統(tǒng)能夠利用多種外部資源,如醫(yī)學文獻、藥物標簽和FDA工具(例如OpenFDA藥物信息API),增強了LLM的知識基礎(chǔ)。
- 結(jié)構(gòu)化輸出:系統(tǒng)生成的結(jié)構(gòu)化報告包含藥物與結(jié)果關(guān)聯(lián)的標簽、置信度分數(shù)、證據(jù)強度和罕見度,便于下游處理和分析。
- 解釋性:系統(tǒng)提供了對已建立關(guān)聯(lián)的解釋,使人類專家能夠理解和驗證這些關(guān)聯(lián)。
- 可靠性增強:通過引入批評代理來驗證主要代理的輸出,顯著提高了系統(tǒng)的可靠性。
- 通用性:MALADE的設(shè)計方法不僅適用于ADE提取,還可以擴展到其他藥物安全監(jiān)測(PhV)問題,甚至是非醫(yī)療領(lǐng)域的臨床問題。
不足與反思
- 依賴文本數(shù)據(jù):系統(tǒng)完全依賴于文本形式的FDA標簽數(shù)據(jù),如果信息沒有明確包含在標簽中,系統(tǒng)無法可靠地識別任何關(guān)聯(lián)的強度。
- 未來工作方向:未來的工作方向包括從電子健康記錄(EHR)數(shù)據(jù)中提取ADE,以及使用本地開源LLMs(如LlaMA、Grok和Mistral)進行詳細評估。
- 初始步驟的人工輸入:系統(tǒng)在初始步驟需要一些最小的人工輸入,例如將藥物類別名稱轉(zhuǎn)換為FDA數(shù)據(jù)庫期望的形式。
- 結(jié)構(gòu)化輸入輸出的增加:增加使用結(jié)構(gòu)化輸入和輸出可能會提高DrugAgent的可靠性,例如通過強制執(zhí)行某些信息的存在來替代自由文本輸出。
關(guān)鍵問題及回答
問題1:MALADE系統(tǒng)在處理藥物標簽數(shù)據(jù)中的不良藥物事件(ADE)提取時,如何利用檢索增強生成(RAG)技術(shù)來提高準確性?
- 檢索階段:從文檔存儲中檢索與查詢最相關(guān)的文檔片段。這些文檔片段可以是來自FDA藥物標簽數(shù)據(jù)庫、MIMIC-IV臨床數(shù)據(jù)庫等的外部文本數(shù)據(jù)。
- 增強階段:將檢索到的文檔片段與原始查詢合并,形成新的提示。例如,如果原始查詢是“Does drug X increase the risk of condition Y?”,增強后的提示可能是“Given the passages below: [document passages], answer this question: Does drug X increase the risk of condition Y based ONLY on these passages, and indicate which passages support your answer.”
- 生成階段:指導(dǎo)大型語言模型(LLM)基于增強后的提示生成回答。LLM生成的回答將與增強的文檔片段保持一致,并提供引用這些片段作為支持其回答的證據(jù)。
通過這種方式,RAG技術(shù)不僅彌補了LLM在預(yù)訓(xùn)練過程中可能缺乏的最新知識,還提供了證據(jù)引用的能力,從而顯著提高了ADE提取的準確性和可靠性。
問題2:MALADE系統(tǒng)中的多代理架構(gòu)是如何設(shè)計的?各個代理的具體職責是什么?
MALADE系統(tǒng)由多個LLM驅(qū)動的代理組成,每個代理負責一個相對較小的子任務(wù)。具體職責如下:
- DrugFinder:從FDA的國家藥品代碼(NDC)數(shù)據(jù)庫中找到屬于藥物類別的廣泛藥物列表,并使用MIMIC-IV臨床數(shù)據(jù)庫中的處方率篩選出最常見的三種藥物。
- DrugAgent:每個代表性藥物的Agent生成關(guān)于其對健康結(jié)果影響的自由文本摘要。它參考最新的外部藥物參考來源(如FDA藥物標簽數(shù)據(jù)庫),并生成包含風險水平和證據(jù)強度的摘要。
- CategoryAgent:結(jié)合藥物級別的信息,生成結(jié)構(gòu)化報告。報告包括藥物類別對健康結(jié)果影響的標簽(如“增加”、“減少”或“無效果”)、置信度得分、風險水平和證據(jù)強度。
- Critic:每個Agent與其對應(yīng)的評論家代理配對,評論家代理驗證主要代理的行為和響應(yīng)。Critic提供反饋,幫助Agent改進其生成的回答,直到其回答被接受為止。
通過這種多代理協(xié)作的方式,MALADE系統(tǒng)能夠有效地分解復(fù)雜任務(wù),并利用多個代理的集體知識和專長來提高ADE提取的準確性和可靠性。
問題3:MALADE系統(tǒng)在實驗中表現(xiàn)如何?與其他方法相比有哪些優(yōu)勢?
- ADE識別效果:MALADE在區(qū)分ADE和非ADE方面表現(xiàn)良好。基于效果的AUC和F1評分分別為0.851和0.609(GPT-4 Turbo),基于ADE的AUC和F1評分分別為0.851和0.556(GPT-4 Turbo)。這些結(jié)果表明,MALADE能夠有效識別藥物類別與健康結(jié)果之間的關(guān)聯(lián)。
- Agent-Critic交互的有效性:通過消融實驗,發(fā)現(xiàn)Critic顯著提高了系統(tǒng)的可靠性,特別是在沒有強證據(jù)的情況下(即地面真值為“無效果”的情況)。這表明,Agent-Critic交互模式在提高LLM生成回答的準確性方面起到了關(guān)鍵作用。
- 理由提供的洞察:MALADE提供的理由與人類專家的推理一致,幫助理解系統(tǒng)的失敗模式。例如,CategoryAgent偶爾會基于弱證據(jù)過高估計藥物類別的風險。這種能力不僅提高了系統(tǒng)的準確性,還為改進系統(tǒng)提供了有價值的反饋。
與其他方法相比,MALADE系統(tǒng)的優(yōu)勢在于其結(jié)合了多代理協(xié)作和檢索增強生成技術(shù),能夠在處理復(fù)雜任務(wù)時提供更高準確性和可靠性的結(jié)果。此外,MALADE的設(shè)計原則和具體實現(xiàn)方法還可以擴展到其他醫(yī)療任務(wù)和藥物警戒研究中,提供更通用的解決方案。
本文轉(zhuǎn)載自???知識圖譜科技???,作者:知識圖譜科技
