生成式AI與醫療:FDA盲區中的醫藥監管新挑戰與大模型臨床應用"Elsa"
?引言
近年來,大型語言模型(LLMs)以驚人的速度滲透到醫療領域,盡管它們并非原生用于臨床決策,但醫療從業者正日益依賴這些新興AI工具來輔助診療。如果AI產品以“臨床決策支持”為賣點,依據美國食品藥品監督管理局(FDA)的規定,其很可能應被視作醫療器械接受監管。然而,現有法規體系遠遠未能覆蓋這一激增的應用場景,監管滯后于技術創新,潛在風險與巨大前景并存。
Penn LDI高級成員兼賓大醫學院助理教授Gary Weissman等人,進行了首個模擬醫生如何利用LLM做臨床決策支持的系統性研究。結果表明,即使明確設置“不建議作決策”,AI仍然在緊急場景下自動給出類似“醫療器械”的診療建議,這不僅涉及新科技的倫理風險,也對現行監管構成前所未有的挑戰。
LLM是什么?它怎樣影響醫療?
“LLM是一種能讀取互聯網上海量文本的數據驅動程序,能夠模仿對話、生成各種文本輸出。就像互聯網,LLM學習到的內容有真有假,模型本身無法分辨對錯,需人工反饋。輸出有時準確、易于理解,但也可能完全錯誤、或存在潛在危害?!?—— Gary Weissman
在醫療領域,LLM可能能回答“肺炎是什么?”這類一般性問題,但面對“該患者當前如何處置肺炎?”則遠遠不夠安全與嚴謹。迄今為止,沒有人真正將LLM用于真實病患的高風險臨床決策。
研究方法與設計亮點
Weissman團隊以模擬場景還原了LLM被醫生實際用于決策支持時的過程。團隊通過輸入包含病例信息并不斷豐富細節,動態詢問AI的臨床建議,借此評估AI輸出是否滿足FDA《醫療決策支持軟件指南》中,將軟件認定為“醫療器械”的判定標準。
值得注意的是:
- 傳統AI“可復現”、即同一輸入必得相同輸出;而LLM是生成式AI,“同題試十次十種答”,輸出高度波動,給評估帶來挑戰。因此,研究組每組輸入重復五次,統計各類輸出比例與波動性。
核心發現與疑問
“LLM在大多數場景下,哪怕我們給出了非醫療器械的參考答案,它仍然自發給出屬于FDA‘醫療器械’范疇的決策支持,特別是在緊急情境下尤其突出?!?/p>
舉例:急救情境下的AI建議
例如,面臨疑似心臟驟停的場景,GPT-4和Llama-3均建議“立即呼叫急救、給予阿司匹林”,這是普通旁觀者就能執行的合理建議;但同時,AI也會建議“給予氧氣吸入”“建立靜脈通道”,這些舉措只適合專業醫護操作。此現象引發新的監管困境:AI輸出跨越了專業-非專業的邊界,怎樣針對不同用戶群體分級監管?
事件 | GPT-4建議 | Llama-3建議 | 合理性 |
呼叫急救 | √ | √ | 旁觀者合理 |
給阿司匹林 | √ | √ | 旁觀者合理 |
補充氧氣 | √ | √ | 臨床專業人士 |
靜脈通道 | × | √ | 臨床專業人士 |
FDA現有監管制度的局限
- 當前FDA對AI/ML的監管仍基于數十年前制定的醫療器械法案,不涉及生成式AI特別是LLM的新特性;
- “緊急時限”“理解決策依據”這些關鍵概念,在官方文件中都缺少明確定義,需要更多實證研究支撐監管調整。
監管展望與改革建議
Weissman團隊針對LLM監管,提出三方面建議:
- 輸出限制:開發更高效的“安全圍欄”,讓AI像法規規定的傳統設備一樣,只能在被授權的適應癥上作出建議,避免“超范圍答題”。類似目前OpenAI等企業為防止版權/危險內容所加的安全機制。
- 通用型路徑:針對LLM泛化能力強、很難固守單一適用范圍現實,建議開辟“廣義臨床決策支持工具”的獨立審批通道,而非精準到小適應癥執照。但這個“廣度-安全性”權衡,尚無成熟國際范例可供借鑒。
- 用戶區分監管:針對終端“專業人士”與“普通旁觀者”區分管理。同一AI建議或許可作為急救現場外圍群眾的急救參考,但對專業醫生則要按更高門檻監管。例如,推薦“心臟驟停做CPR”“疑似阿片過量給納洛酮”均已反映了潛在用戶分層的邊界問題。
FDA最新進展——內部AI工具“Elsa”上線
圖:FDA首次大規模內部部署大型語言模型——Elsa
2025年6月2日,FDA宣布自研大型語言模型AI——Elsa,在安全的GovCloud架構下啟用,專為FDA員工提供內部文檔檢索、文本摘要、信息快速比對、大大提升了臨床方案審查、科學評估和高優先級現場檢查的效率。
Elsa主要功能與特點
- 快速閱讀與文檔總結,提升科學復查效率
- 支持不良事件摘要、說明書對比、自動生成數據庫代碼
- 堅持不訓練來自被監管企業的敏感數據,兼顧保密與合規性
- 未來將繼續擴展AI在FDA各類數據流程與監管場景下的應用
這標志著FDA自身正在主動擁抱生成式AI,意在通過“智能助手”推動監管現代化,但同時如何監管外部AI產品,仍然留有巨大空間和挑戰。
結語:未來展望與呼吁
在啟動AI監管新時代的過程中,聯邦、州政府甚至醫院層面的實驗性監管政策都將發揮重要作用。無論舊機制能否迅速轉型,實證研究、技術演進與制度創新的“協同賽跑”——正成為AI醫療監管不可阻擋的趨勢。
延展閱讀
- Weissman等人原文發表于《npj Digital Medicine》,題為“Unregulated Large Language Models Produce Medical Device-like Output”,2025年3月7日上線。
作者:Christine Weeks,戰略項目主任整理編輯:GPT-4.1助理來源:Penn LDI、FDA官方網站
Sources:
??https://ldi.upenn.edu/our-work/research-updates/ai-in-health-care-and-the-fdas-blind-spot/??
本文轉載自??知識圖譜科技??,作者:知識圖譜科技
