醫療版ChatGPT直播評測!治療方案與真人醫生96%一致
國內首個醫療大模型,已經在“接診”患者了。
最近,一組AI醫生醫院真實站崗數據曝光:
- 共接診120多名患者,從問診、檢查到診療方案全流程覆蓋;
- 涉及心內科、消化內科、呼吸內科、內分泌科、腎臟內科、骨科、泌尿外科七大疾病科室,患者疾病類別多元,復雜程度不一;
- 醫學水平不輸國內三甲醫院主治醫生,與真人醫生診療方案一致性達到96%;
- 來自北大人民醫院、中日友好醫院、阜外醫院和友誼醫院等國內頂尖醫院的7位專家教授圍觀點贊。
這樣公開化、規模化的AI醫生評測,在國內是首次,放眼全球也是第一次見到。
更想不到的是,背后的主角MedGPT——基于Transformer的1000億參數大模型,才剛問世一個月。
目前在實際診療中,它已經具備多輪連續對話和多模態能力。而在未來規劃中,MedGPT還會上線醫療版的Plugin Store,預計將搭載1000+醫療應用,極大豐富AI醫生的診療工具,提升診療效率。
從上述這些數據與表現來看,96%的一致性,想不到。
這樣的迭代速度,更想不到。
MedGPT直播首秀:接待百名患者
這場直播首秀其實是一場實打實的人機醫學一致性評測。除了AI醫生MedGPT外,還有10位來自四川大學華西醫院的主治醫師共同參與。
為了保證評測的權威性和科學性,一方面由國內頂尖醫院的專家教授組成評審團,進行審核和多維度打分。
另一方面,整個流程也進行了特別的設計。簡單來說,患者進屋問診,但是是和有醫師執業資格的“翻譯員”對話。翻譯員把患者主訴在電腦上分別傳遞給真人醫生和AI醫生,如此多輪往復,最終根據檢查結果,給出診斷。
就像當初AlphaGo大戰圍棋界,中間幫助Alpha執行“落子”動作的執棋手,就是這個“翻譯員”的角色了。
這樣一來AI醫生與真人醫生之間互不干涉,且條件基本一致,雙方就能給出獨立的判斷。
最終,經過一天的鏖戰,真人醫生綜合得分為 7.5分,AI 醫生綜合得分為 7.2分,比分結果上一致性達到了96%。
在評審過程中,專家們也發現了一些意想不到的“驚喜”:
比如,出現漏診誤診的概率比較小。
北大人民醫院薛峰主任就發現,MedGPT通過多輪詢問,根據患者腳底板疼痛癥狀,竟然在最后可以推斷診斷出「有可能出現壓迫頸神經」這樣的結果。
這也就是說,從知識儲備上,AI醫生其實可能高于一個經驗不太豐富的醫生。
另外,MedGPT就診時的“沉穩”表現也得到了點贊。
中日友好醫院心內科主任醫師任景怡就表示:我覺得最好的一點是當診斷尚不明確時,MedGPT并不會輕易給出結論,而是要堅持通過繼續問診或檢查收集更多信息。
于是即便MedGPT還存在一定問題,她還是給了比真人醫生還高的分數,并直言:這是里程碑的結果。
不可否認的是,MedGPT還有些問題需要調整,幾位專家指出它會出現偶爾過度給出治療建議、重復推薦檢查項目、某些概念表述不準確,以及無法實現查體等局限——要想MedGPT更加可用,這些意見一定程度比正面評價還要重要。
但總的來說,首個醫療大模型的公開首秀的結果還算不錯。
總結下來,首先是大模型的基本能力都有,語義理解、多輪對話、多模態識別等,還能像OpenAI那樣通過插件商店鏈接到各種行業應用。
還有通用大模型被廣為詬病的對齊和準確性問題,MedGPT整個流程結果也不輸真人醫生。
再從行業維度來看,確實能真正從醫學角度為醫生提供有效幫助,提升患者疾病管理效率。
此次真實測試過程中可以看到,它能基于有效問診以及醫學檢查數據,MedGPT得以進行準確的疾病診斷,并為患者設計疾病治療方案。
甚至在診后,MedGPT還會在患者收到藥品后進行用藥指導與管理、智能隨訪復診、康復指導等智能化疾病管理工作。
目前它基本覆蓋ICD10的60%疾病病種,這意味著常見病癥都能Hold住~
還能7*24小時不間斷干活,一旦規模化落地輔助醫生診療,能大大提升醫療效率,對于分級診療,醫療資源普惠,都能夠發揮一定作用。
首個醫療大模型如何煉成?
醫療向來是AI落地中專業性最強、壁壘性最高,對安全要求最高的領域之一。
以往用戶們會習慣性使用信息搜索來幫助自己做一些初步的疾病判斷,但信息魚龍混雜,普通用戶缺乏專業知識無法進行有效篩選,最終導致往往會收效甚微。
但又因為這個領域牽涉到每個人的生命健康,市場需求和社會價值一直很大。
因此自ChatGPT誕生以來,關于何時能在醫療領域“上崗”發揮作用,就備受產學研各界專家的關注。
誠如“弱智吧”成為檢驗各個通用大模型能力的Benchmark一樣,各個大模型的醫療能力也在美國執業醫師資格考試USMLE中摩拳擦掌。
早些時候, 哈佛大學教授曾親自下場測試ChatGPT輔助診斷的表現。
結果顯示,ChatGPT在45個案例中39個診斷正確,并為30個案例提供適當的分診建議。這樣的表現已經超過現有機器診斷水平,接近醫生。
另一個代表,谷歌健康團隊打造的Med-PaLM 2,它能回答各種醫學問題,據稱是首個在美國醫療執照考試中達到專家水平的大語言模型。
但能做題并不能意味著就能落地應用。
以GPT-4為首的通用大模型,他們高度依賴文本統計概率生成答案。相信大家也能感知到它很擅長一本正經地胡說八道,如果應用在日常交流,倒也樂在其中。
但要是應用到行業中去,往往非專業人士會難以察覺,這就會引發各種風險,尤其又像醫療這種民生行業,對內容生成的把控要求更高,容不得半點差池。
更不用說醫療本身覆蓋知識面廣而繁雜,而且從整個就醫流程來看,診前、診中、診后都涉及各種各樣長尾任務,所需高質量數據可能并不比通用模型小,且大部分數據不是靠網上摘取。
這對企業來說,不單只是算法、算力和數據的考驗,而是一整套系統工程性難題。
既然如此,作為國內首個醫療大模型MedGPT,又是如何做到的呢?
簡單總結:專業大模型,以及多種準確性機制保架護航。
首先,一上來就打造醫療大模型。
此前專業大模型的思路是,先打造一個大模型,再利用專業數據做監督微調。但MedGPT直接是以醫療數據預訓練、微調以及超100名醫生參與RLHF機制。
這就需要企業既要在垂直行業深耕,還要有AI技術實力。這就需要提及它背后的締造者——醫聯。
在行業上,作為互聯網醫療的早期入局者,醫聯已經積累了超過150萬醫生和2000萬患者,穩固的醫患關系鏈長期互動之下,形成了大量專業的醫學數據。
此外醫聯長期關注醫療與技術的深度融合,已打造了近140個疾病管理標準化流程,涉及腫瘤、心腦血管、糖尿病等常見病癥,覆蓋1000多個病種,形成了一整套全數字化全流程疾病管理體系。
在互聯網醫療時代,這些疾病管理體系可以為行業提供線上管理的有效依據,提升行業整體效率。而在AI賦能下的數字醫療行業來臨之時,這便成了AI醫療的重要依托。
至于在AI方面,這家公司很早就開始關注并進行謀劃:早在2017年醫聯就建立起醫療大數據結構化能力;2018年就將NLP、CV等AI技術應用落地,比如智能體液檢測、智能分診、口腔影像識別等場景。
2019年還推出針對單病種/分階段的AI診療模型,曾聯手多家醫院及機構,創建亞洲首個多發性硬化癥領域的早篩AI模型,幫助患者提前1-3年提升多發性硬化癥的風險預測和防控能力。
這些前期在AI領域的摸索以及長期的醫學與前沿技術的融合,成為醫聯能率先在行業內推出醫療大模型并應用的基礎,可以說這一切絕非偶然。
讓我們再往深看一步,為了保證醫療大模型的準確性和一致性,醫聯從模型到實際應用同樣做了不少工作。
包括模型算法的一致性校驗機制、多維度診療評測機制,以及基于專家評議的真實世界醫生一致對標機制。
比如,在為患者輸出正式答案前,會先經過臨床醫學規則器的校驗。還有招募真實醫生在電腦前判斷,然后將兩者結果交給專家委員會評議,以此來對標真實醫生。
基于這樣的方法論,醫聯團隊率先為專業大模型的打造在行業中打了個樣。
醫療AI2.0大幕拉開
最后回到MedGPT公開評測這件事情本身,也帶來了大模型發展進程中的三點趨勢。
第一、醫療AI2.0大幕已經拉開,系統復雜性問題將會得到解決。
以大模型為代表的AI2.0時代的到來——對話即入口,讓所有的應用場景都得到了重新定義。被AI所輻射的千行百業也深處于變革之中。
以往AI 1.0,NLP、CV、多模態等單點技術蓬勃發展,醫療AI應用場景豐富多樣,他們強規則、具有可控性。但場景、數據之間沒有打通,導致泛化能力不強,無法處理系統性、復雜性的問題。
得益于Transformer,打破了模態、數據、任務場景之間的壁壘。醫療場景中,利用海量醫學文本與數據中,進行高并發/長距離學習整合,一些復雜性、系統性問題可以得到解決。
如果繼續暢想,結合醫聯的云藥房、云檢驗等云化能力,不僅是AI醫生本身疾病管理能力會得到提升,患者甚至可以擺脫地理限制,輕松完成所有疾病從預防、診斷、治療、康復的全流程管理路徑。
這其實也并不難想象,只需要知道有一個能看各個專科領域并且比肩三甲醫院醫生的AI醫生能夠24小時在你身邊為你出診,同時,檢驗檢測服務在家附近1公里就能全部完成。
有去三甲醫院排隊掛號看病經歷的同學應該都懂——專家掛不上號、檢驗檢查等一個月,這都是時有發生的事情。降本增效、解決行業問題,走入醫療的下一個時代,就是靠MedGPT這類專業模型做的。
第二、大模型的行業紅利并非在科技巨頭手中,而在有場景有數據的玩家手里。
相信大家都或多或少有所看到,目前醫療領域的專用大模型和產品正在不斷問世,最具代表性的產品來自谷歌和微軟這兩個大廠。
谷歌Med-PaLM 2目前正在嘗試多模態能力,比如自己檢查X光片后給出診斷。在今年晚些時候將對一小部分谷歌云用戶開放。
還有被微軟200億美元收購的Nuance,借由微軟OpenAI合作之便,正在將GPT-4集成到臨床筆記軟件DAX中,以減輕臨床醫生的負擔。
前者的大模型還沒有到真正落地,后者無非是集成通用大模型的API,其行業的準確性和一致性無法得到保障。
但MedGPT一亮相就驚艷全場,并拿下多個行業首次:
首次突破AI醫生多輪對話的難題。
首次實現從有效問診到醫學檢查的跨越。
首次實現AI給出準確診斷和治療方案。
首次AI具備全流程診斷能力……
這與垂直領域深耕、有場景有數據有關。
醫聯在醫療行業有9年深耕,積累了豐富的知識、數據和應用,構筑起了深厚的技術和用戶壁壘。
一旦實現大模型技術的應用, 在現有的用戶場景基礎之下,將會迅速規模化落地。這是其他想入局者無法擁有的先發優勢。
上一次AI浪潮來襲時,最終也是場景玩家率先吃掉AI紅利。
現在同樣也依舊是場景玩家吃掉大模型紅利,只不過技術路徑已經明晰,落地速度自然要比以往快得多。
第三,醫療AI落地提速,也側面印證了大模型的發展趨勢:
雪球效應展現,從技術到應用部署的飛輪會越轉越快。
ChatGPT最開始只會一本正經地胡說八道,短短幾個月內基于用戶反饋、插件開發生態,真正被各行業的人加入到工作流中,并上線了端側應用。
還有Midjourney、Stable Diffusion被人詬病無法畫手的問題,也能在短短幾周內解決;以及國內大模型涌現、更新速度加快,文心一言一個月能迭代四次等等。
“大模型-應用-數據”的加速閉環一旦打通,那么產業落地的速度將會比上一波浪潮更快。
而醫聯大模型MedGPT一個月就進入到真實患者全流程測試階段。在此之后,根據數據飛輪迭代大模型,落地速度只會越來越快。
或許很快,醫療AI2.0就會惠及到每個人身邊。