阿里推出 LingShu AI醫生:統一多模態醫學理解與推理的通用基礎模型
核心速覽
多模態大型語言模型(MLLMs)在理解常見視覺元素(如風景、家居用品和公共事件)方面展現了令人印象深刻的能力,這主要歸功于其大規模數據集和先進的訓練策略。然而,由于醫學場景中的數據和任務與一般領域存在固有差異,它們在醫學應用中的有效性仍然有限。具體來說,現有的醫學MLLMs面臨以下關鍵限制:(1)對醫學知識(超出影像學范圍)的覆蓋有限;(2)由于數據策展流程不佳,容易產生幻覺;(3)缺乏針對復雜醫學場景定制的推理能力。為了應對這些挑戰,我們首先提出了一個全面的數據策展程序,該程序(1)不僅從醫學影像,還從廣泛的醫學文本和一般領域數據高效獲取豐富的醫學知識數據;以及(2)合成準確的醫學字幕、視覺問答(VQA)和推理樣本。因此,我們構建了一個富含廣泛醫學知識的多模態數據集。在策劃的數據基礎上,我們推出了專注于醫學的MLLM:Lingshu。Lingshu經過多階段訓練,以嵌入醫學專業知識并逐步提升其解決問題的能力。此外,我們初步探索了應用可驗證獎勵范式的強化學習來增強靈書的醫學推理能力。同時,我們開發了MedEvalKit,一個統一的評估框架,它整合了領先的多模態和文本醫學基準測試,用于標準化、公平且高效的模型評估。我們在三個基本醫學任務上評估了Lingshu的表現:多模態問答、基于文本的問答和醫學報告生成。結果顯示,Lingshu在大多數任務上持續超越現有的開源多模態模型。此外,我們進行了五個緊密與現實世界場景對齊的案例研究,展示了Lingshu在醫學背景下實際應用的潛力。
主頁:??https://alibaba-demo-academy.github.io/lingshu/??
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何在多模態醫學理解中實現統一的多模態基礎模型。現有的多模態大型語言模型(MLLMs)在通用領域表現出色,但在醫學領域的應用效果有限,主要由于醫學數據與任務的復雜性和特異性。
- 研究難點:該問題的研究難點包括:醫學知識的覆蓋范圍有限,數據質量參差不齊,缺乏針對復雜醫學場景的推理能力。
- 相關工作:該問題的研究相關工作有:將通用LLM或MLLMs與醫學多模態數據結合構建專用模型,采用蒸餾技術改進模型性能,以及利用強化學習提高推理能力。
研究方法
這篇論文提出了Lingshu模型用于解決醫學多模態理解問題。具體來說,
數據收集與合成:首先,提出了一個全面的數據收集和合成流程,包括從醫學影像、醫學文本和通用領域數據中高效獲取豐富的醫學知識數據,并生成準確的醫學字幕、視覺問答(VQA)和推理樣本。
多階段訓練:基于收集的數據,提出了多階段訓練方法,逐步注入醫學專業知識并增強模型的解決問題能力。具體階段包括:淺層醫學對齊、深層醫學對齊、醫學指令調優和醫學導向的強化學習。
- 強化學習:初步探索了將可驗證獎勵的強化學習(RLVR)應用于提升Lingshu的醫學推理能力,開發了Lingshu-RL版本。
- 評估框架:提出了MedEvalKit,一個統一的評估框架,整合了主流的多模態和文本醫學基準,支持多種問題格式,確保評估的標準化和可重復性。
實驗設計
- 數據收集:從網絡中收集了多種開源醫學多模態數據集、醫學文本指令數據和通用領域數據集,并進行嚴格的質量過濾和預處理。
- 數據合成:生成了長形式字幕、基于OCR的指令樣本、VQA實例和蒸餾推理示例,以提高模型的特定能力。
- 模型訓練:基于Qwen2.5-VL模型架構,開發了7B和32B參數的Lingshu模型,并通過多階段訓練框架進行訓練。
- 評估:使用MedEvalKit框架對Lingshu進行評估,涵蓋多模態VQA、文本QA和報告生成任務。
結果與分析
多模態VQA任務:在七個醫學多模態VQA任務上,Lingshu-32B模型的平均得分達到了66.6%,超過了所有其他模型,包括專有模型如GPT-4.1和Claude Sonnet 4。
- 文本QA任務:在醫學文本QA任務上,Lingshu-7B模型在多個基準測試中表現出色,平均準確率達到52.8%,領先于其他開源模型。
- 報告生成任務:在MIMIC-CXR、CheXpert Plus和IU-Xray三個報告生成基準上,Lingshu-32B模型在大多數指標上均表現最佳,特別是在IU-Xray任務上,得分接近130.4。
- 強化學習效果:盡管Lingshu-RL在部分任務上表現出微弱的改進,但整體效果有限,表明當前RLVR訓練在醫學領域的應用仍需進一步優化。
總體結論
這篇論文提出了Lingshu模型及其多階段訓練框架,解決了醫學多模態理解中的關鍵挑戰。通過全面的實驗驗證,Lingshu在多個醫學任務上表現出色,顯著優于現有開源模型。此外,MedEvalKit評估框架的引入進一步推動了醫學MLLMs的標準化和可重復性。總體而言,Lingshu和MedEvalKit為醫學領域的MLLMs提供了一個高性能模型、一個強大的評估工具以及數據收集、分階段訓練和評估的經驗指南。
論文評價
優點與創新
- 數據收集與合成:提出了一種全面的數據收集和合成流程,能夠高效地獲取豐富的醫學知識數據,并生成高質量的醫學字幕、問答對和推理樣本。
- 多階段訓練:開發了針對醫學領域的多階段訓練框架,逐步注入醫學知識,增強模型的問題解決能力。
- 強化學習探索:初步探索了將可驗證獎勵的強化學習(RLVR)應用于提升Lingshu的多模態醫學推理能力,開發了Lingshu-RL版本。
- 統一評估框架:提出了MedEvalKit,一個統一的評估框架,整合了主要的多模態和文本醫學基準,簡化了模型評估過程,推動了標準化性能評估的發展。
- 實驗驗證:通過嚴格的實驗驗證,Lingshu在多個多模態和文本醫學視覺問答任務以及報告生成任務中表現出色,顯著優于現有的開源多模態模型。
- 案例研究:進行了五個與實際應用場景緊密相關的案例研究,展示了Lingshu在實際醫療應用中的潛力。
不足與反思
- 數據質量和多樣性:盡管收集了大量的醫學多模態和文本數據,但數據質量和多樣性仍然有限。開源醫學多模態數據通常存在標注準確性低、圖像分辨率差和模態分布不均等問題。
- 模型性能和泛化能力:盡管Lingshu在多個醫學基準上取得了有希望的結果,特別是在問答和報告生成任務中,但與最先進的專有模型相比仍有差距。其在大規模、更多樣化的醫學任務和更廣泛的泛化能力方面的探索仍不充分。
- 訓練范式和強化學習:盡管驗證了數據策略和訓練范式的有效性,但最佳的數據混合和訓練配置仍需進一步探索。當前在醫學背景下的RLVR應用的初步探索效果有限,需要更深入的理解。
關鍵問題及回答
問題1:Lingshu模型在數據收集和合成方面采取了哪些具體措施來確保醫學知識的全面性和高質量?
數據收集
- 從網絡中收集了多種開源醫學多模態數據集,包括醫學字幕數據(如LLaVA-Med Alignment、PubMedVision等)和醫學多模態指令數據(如PathVQA、PMC-VQA等)。
- 收集了醫學文本指令數據,如醫療事實問答、蒸餾推理數據、患者-醫生對話和一般醫學指令數據。
- 收集了醫學影像數據,包括X光、CT、MRI、超聲、皮膚鏡、眼底、組織病理學和顯微鏡等不同醫學影像數據集。
- 還收集了通用領域數據,如圖像字幕、文本和多媒體指令跟隨數據,以增強模型的泛化能力。
數據合成
- 生成了長形式字幕,通過數據從醫學圖像分割和分類任務中提取結構化的事實知識,生成詳細的醫學字幕。
- 基于OCR的指令樣本,收集了生物學和化學考試問題和答案,并使用Gemini-2.0-Flash-Thinking進行詳細推理步驟標注。
- 合成VQA實例,使用模板法和自指示法生成醫學VQA數據,模板法通過手動設計問題模板和答案選項,自指示法通過GPT-4o生成問題和答案。
- 蒸餾推理示例,使用GPT-4o生成鏈式推理路徑,并通過LLM驗證過程確保推理路徑的一致性。
問題2:Lingshu模型的多階段訓練框架是如何設計的,各階段的具體目標和訓練內容是什么?
醫學淺層對齊(Medical Shallow Alignment)
- 目標:建立醫學影像模態與其對應文本描述之間的有效對齊。
- 訓練內容:使用粗略標注的醫學圖像-文本對,僅微調視覺編碼器和投影層。
醫學深層對齊(Medical Deep Alignment)
- 目標:全面整合醫學知識到MLLM中,增強其理解和適應各種臨床上下文的能力。
- 訓練內容:解凍所有模型參數,使用更大、更高質量和語義更豐富的醫學圖像-文本對進行端到端微調。
醫學指令調優(Medical Instruction Tuning):
- 目標:提高模型理解和執行各種醫學用例任務的能力,增強其泛化到下游任務的能力。
- 訓練內容:使用廣泛的醫學和多模態指令數據集進行大規模、端到端優化,包括多圖像推理任務、多輪對話和需要詳細推理過程的查詢。
醫學導向的強化學習(Medical-oriented Reinforcement Learning)
- 目標:通過可驗證獎勵的強化學習(RLVR)增強模型的醫學推理、問題解決能力和解釋性。
- 訓練內容:使用精心策劃的醫學可驗證數據集進行訓練,采用Group Relative Policy Optimization(GRPO)方法,使用嚴格格式的獎勵和準確性獎勵。
問題3:MedEvalKit評估框架的主要特點是什么,它如何確保評估的標準化和可重復性?
多模態和文本醫學基準整合
- 整合了多個主流的多模態和文本醫學基準,包括VQA-RAD、SLAKE、PathVQA、PMC-VQA、OMnimedVQA、MMMU、MedXpertQA、MMLU、PubMedQA、MedMCQA、MedQA-USMLE、MedBullets、SuperGPQA、MIMIC-CXR、IU-Xray和CheXpert Plus。
支持多種問題格式
- 支持多選題、封閉式問題、開放式問題和醫學報告生成等多種問題格式。
標準化數據預處理和后處理協議
- 標準化了所有問題的輸入格式,遵循候選醫學MLLMs推薦的官方聊天模板。
- 使用規則基礎的評估與LLM作為評委的策略相結合的雙重驗證機制,結合客觀和主觀評估,提高評估的穩定性和可靠性。
支持推理加速和高吞吐量評估
- 通過vLLM支持推理加速,支持高通量和并行評估,具有強大的可擴展性和工程可用性。
通過這些特點,MedEvalKit確保了評估過程的標準化和可重復性,使得不同模型之間的比較更加公平和可靠。
本文轉載自??知識圖譜科技??,作者:知識圖譜科技
