AI 橫掃醫學問答，贏麻了？牛津大學團隊實錘 AI 臨床短板

作者：文摘菌 2025-05-13 15:10:50

為什么會這樣？研究團隊發現，并不是AI本身不行，而是“人和AI”這個配合環節，掉了鏈子。比如，用戶描述癥狀時信息不全，AI就診斷失誤；AI給了2.2個可能選項，用戶只會采納1.33個，其中三分之一還選錯了。模型說得再明白，用戶沒能聽懂，或者沒按建議去做，那些醫學知識就像被鎖進了黑箱。

原本以為，大模型考過了醫學考試，離成為“AI醫生”也就差臨門一腳。沒想到，牛津大學最新這項研究，卻狠狠給了一記當頭棒喝。

圖片

論文地址：https://arxiv.org/pdf/2504.18919

你在新聞里看到的那些“AI診斷準確率高達99%！”“大模型吊打專業醫生！”的標題，真的靠得住嗎？

牛津的研究團隊專門找來了1298個英國普通人，給他們設了十個真實的就醫場景。

他們要像現實生活中那樣判斷：我現在的癥狀會不會很嚴重？該自己扛、去社區醫院，還是得立刻沖急診？有些人手里有大模型幫忙，有些人只能自己用Google查。

這次拿來PK的，不是什么小模型，而是GPT-4o、Llama 3和Cohere的Command R+。理論上都是“天花板”級別的AI。

可結果呢？模型單獨答題時，表現得堪稱完美：GPT-4o能正確識別94.7%的疾病，推薦的處理方式也有64.7%是對的，Llama 3和Command R+的數字也都不低。你以為AI只要上線，人人有救？

圖片

研究方案：(a) 3名醫生編寫了10個醫療案例，經反復修改后對處置方式（從自我護理到叫救護車共5級）達成一致。(b) 另4名醫生提供鑒別診斷，匯總形成標準答案。(c) 招募1298人隨機分4組，每組測試1個案例。實驗組用大語言模型輔助判斷，對照組可使用任意方法（多數用搜索引擎或自身知識）。(d) 受試者選擇處置方式并說明相關病癥。每人測試2個案例，每組最終收集600例數據，以標準答案評估結果。

可一旦讓真實用戶自己來和大模型互動，情況就變了味：用AI輔助以后，大家反而只在34.5%的場景下能說出正確疾病名，比不看AI、自己查資料的還差。選對處理方式的概率，也沒比對照組更高。AI越聰明，用戶卻越“迷糊”。

大語言模型單獨使用及與用戶協作的表現

為什么會這樣？研究團隊發現，并不是AI本身不行，而是“人和AI”這個配合環節，掉了鏈子。比如，用戶描述癥狀時信息不全，AI就診斷失誤；AI給了2.2個可能選項，用戶只會采納1.33個，其中三分之一還選錯了。模型說得再明白，用戶沒能聽懂，或者沒按建議去做，那些醫學知識就像被鎖進了黑箱。

圖片

如上圖，在多個大語言模型（如 GPT-4o、LLaMA 3 70B 和 Command R+）在醫學問答任務（MedQA）中的表現，并與人類用戶進行了對比。結果表明，盡管模型在標準問答任務中普遍達到或超過人類通過標準（60%），但在模擬臨床場景中的判斷任務（如確定最佳處理方式和相關疾病條件）上表現不穩定。此外，模擬用戶的判斷準確性與真實人類用戶的表現高度相關，說明模擬用戶在實驗中可以有效代表人類行為。

圖注：交互過程中的相關病癥識別情況

這像不像我們生活里那些“明明有說明書還是裝錯了家具”“菜譜寫得清清楚楚但最后炒糊了”的瞬間？技術好歸好，人用不明白，一切白搭。你給爸媽買了最新旗艦手機，他們卻只會用來打電話發微信；AI醫生再牛，遇到現實生活的“碎片信息、臨場慌亂、溝通誤會”，一樣抓瞎。

很多人還沉浸在“AI馬上能緩解醫療資源緊張”的美夢里。但牛津團隊潑了一盆冷水：實驗室里的高分，到了現實世界就打了折扣。用考試題、模擬病人測AI，分數再高，不能代表它能搞定真實用戶。AI會答題，但不懂得主動追問、不知道怎樣引導患者補全信息——這才是最大短板。

更諷刺的是，模型測評用的MedQA等考試題，AI能刷滿分，輪到和真人互動，反而“翻車”了。你讓AI和模擬病人聊，結果也比和真實用戶高。AI和AI之間的交流當然順暢，可人類的表達、記憶、情緒、甚至敷衍，才是現實世界最大的bug。

當然，這項牛津研究本身也還算“半真實”：參與者是健康人，按照劇本模擬生病，比起真正帶病痛、焦慮、信息混亂的真實患者，還是有距離。AI用的是API接口，不是像ChatGPT那樣的連續對話體驗。沒有上下文，沒有“鏈式思考”，現實中的各種“人性化提示”也沒加進去。

哪怕如此，這個實驗還是給我們敲了警鐘：AI不是不能用，而是“AI+人”這套流程，才是最難啃的硬骨頭。

我們太習慣于相信“技術能一錘定音”，卻忘了現實世界的混亂、粗糙和不確定。你以為AI醫生上線就能解放一線醫生？但在真正的就醫現場，信息永遠不全，溝通永遠混亂，決策永遠充滿不確定。就像生活中那些手抖拍糊的照片，才是最接近真實的“醫學場景”。

所以，AI醫學的未來，絕不只是模型分數的競賽，而是“如何讓普通人和AI好好說話”的漫長修煉。AI要走進醫療的最后一公里，腳下的路，還很長很長。

責任編輯：武曉燕來源：大數據文摘

AI 用戶模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI 橫掃醫學問答，贏麻了？牛津大學團隊實錘 AI 臨床短板