MedChain:通過交互式順序基準測試橋接大模型Agent與臨床實踐之間的差距
摘要臨床決策制定(CDM)是一個復雜、動態的過程,對醫療保健交付至關重要,然而對于人工智能系統而言仍是一個重大挑戰。盡管基于大型語言模型(LLM)的代理已經在使用許可考試和知識問答任務的一般醫學知識上進行了測試,但由于缺乏反映實際醫療實踐的綜合測試數據集,它們在現實世界場景中的CDM表現有限。為了彌補這一差距,我們提出了MedChain,一個包含12,163個臨床案例的數據集,涵蓋臨床工作流程的五個關鍵階段。MedChain...