Hinton的預(yù)言要實現(xiàn)了!美加頂尖大學(xué)Nature發(fā)文:全科醫(yī)學(xué)人工智能GMAI不止要取代「放射科醫(yī)生」
圖靈獎得主、深度學(xué)習(xí)先驅(qū)Hinton曾預(yù)言到,「人們現(xiàn)在應(yīng)該停止培訓(xùn)放射科醫(yī)生。很明顯,在五年內(nèi),深度學(xué)習(xí)會比放射科醫(yī)生做得更好。這可能需要10年的時間,但我們已經(jīng)有了足夠多的放射科醫(yī)生。」
我認為,如果你是一名放射科醫(yī)生,你就像一只已經(jīng)走到懸崖邊緣、但還沒有往下看的野狼。
近七年過去了,人工智能技術(shù)僅僅參與并替代了部分放射員的技術(shù)工作,并且存在功能單一、訓(xùn)練數(shù)據(jù)不足等問題,讓放射科醫(yī)生的飯碗依然握得很牢。
但ChatGPT類的基礎(chǔ)模型發(fā)布后,人工智能模型的能力得到了前所未有的提升,可以處理多模態(tài)數(shù)據(jù)、無需微調(diào)即可適應(yīng)新任務(wù)的in-context學(xué)習(xí)能力,高度靈活、可重復(fù)使用的人工智能模型的迅速發(fā)展或許會在醫(yī)學(xué)領(lǐng)域引入新的能力。
最近,來自多所美國哈佛大學(xué)、斯坦福大學(xué)、耶魯醫(yī)學(xué)院、加拿大多倫多大學(xué)等多所頂尖高校、醫(yī)療機構(gòu)的研究人員在Nature上聯(lián)合提出了一種全新的醫(yī)學(xué)人工智能范式,即「全科醫(yī)學(xué)人工智能」(generalist medical artificial intelligence, GMAI)。
論文鏈接:?https://www.nature.com/articles/s41586-023-05881-4?
GMAI 模型將能夠使用很少或不使用任務(wù)特定的標記數(shù)據(jù)執(zhí)行各種各樣的任務(wù)。通過對大型、多樣化數(shù)據(jù)集的自監(jiān)督訓(xùn)練,GMAI可以靈活地解釋醫(yī)學(xué)模式的不同組合,包括來自成像、電子健康記錄、實驗室結(jié)果、基因組學(xué)、圖表或醫(yī)學(xué)文本的數(shù)據(jù)。
反過來,模型還可以生成具有表達能力的輸出,如自由文本解釋、口頭推薦或圖像注釋,展現(xiàn)先進的醫(yī)學(xué)推理能力。
研究人員在文中為 GMAI 確定了一組具有高影響力的潛在應(yīng)用場景,并列出了具體的技術(shù)能力和訓(xùn)練數(shù)據(jù)集。
作者團隊預(yù)計,GMAI 應(yīng)用程序?qū)魬?zhàn)目前的驗證醫(yī)學(xué)AI設(shè)備,并改變與大型醫(yī)學(xué)數(shù)據(jù)集收集相關(guān)的做法。
醫(yī)療AI通用模型的潛力
GMAI模型有望比目前的醫(yī)學(xué)人工智能模型解決更多樣化和更具挑戰(zhàn)性的任務(wù),甚至對具體的任務(wù)幾乎沒有標簽要求。
在GMAI的三個定義能力中,「能執(zhí)行動態(tài)指定的任務(wù)」和「能支持數(shù)據(jù)模式的靈活組合」可以讓GMAI模型和用戶之間進行靈活的互動;第三種能力要求GMAI模型形式化表示醫(yī)學(xué)領(lǐng)域的知識,并能夠進行高級醫(yī)學(xué)推理。
最近發(fā)布的一些基礎(chǔ)模型已經(jīng)表現(xiàn)出了部分GMAI的能力,通過靈活地結(jié)合多模態(tài),可以在測試階段動態(tài)地指定一個新的任務(wù),但要建立一個具有上述三種能力的GMAI模型仍需要進一步的發(fā)展,例如現(xiàn)有的醫(yī)學(xué)推理模型(如GPT-3或PaLM)并不是多模態(tài)的,也無法生成可靠的事實性陳述。
靈活的交互 Flexible interactions
GMAI為用戶提供了通過自定義查詢與模型互動的能力,使不同的受眾更容易理解人工智能的見解,并為不同的任務(wù)和設(shè)置提供更大的靈活性。
目前人工智能模型只能處理非常局限的一組任務(wù),并生成一套僵化的、預(yù)先確定好的輸出,比如說模型可以檢測一種特定的疾病,接受某種圖像,輸出結(jié)果為患這種疾病的可能性。
相比之下,自定義查詢可以輸入用戶拍腦袋想出來問題,比如「解釋一下這個頭部MRI掃描中出現(xiàn)的腫塊,它更可能是腫瘤還是膿腫?」。
此外,查詢可以讓用戶定制其輸出的格式,比如「這是一個膠質(zhì)母細胞瘤患者的后續(xù)MRI掃描,用紅色標出可能是腫瘤的部分。」
自定義查詢可以實現(xiàn)兩個關(guān)鍵能力,即「動態(tài)任務(wù)」和「多模態(tài)輸入輸出」。
自定義查詢可以教導(dǎo)人工智能模型在運行中解決新的問題,動態(tài)地指定新的任務(wù),而無需對模型重新訓(xùn)練。
例如,GMAI可以回答高度具體的、以前未見過的問題,比如「根據(jù)這個超聲波結(jié)果,膽囊壁的厚度是多少毫米?」。
GMAI模型可能難以完成涉及未知概念或病理的新任務(wù),而上下文學(xué)習(xí)(in-context learning)可以讓用戶用很少的幾個例子來教GMAI學(xué)習(xí)新概念,比如「這里有10個以前患有一種新出現(xiàn)的疾病的病人的病史,即感染了Langya henipavirus,現(xiàn)在的這個病人也感染Langya henipavirus的可能性有多大?」。
自定義查詢還可以接受包含多模態(tài)的復(fù)雜醫(yī)療信息,比如臨床醫(yī)生在詢問診斷時,可能會在查詢中輸入報告、波形信號、實驗室結(jié)果、基因組圖譜和成像研究等;GMAI模型還可以靈活地將不同的模式納入回答中,例如用戶可能要求提供文本答案和附帶的可視化信息。
醫(yī)學(xué)領(lǐng)域知識
與臨床醫(yī)生形成鮮明對比的是,傳統(tǒng)的醫(yī)學(xué)人工智能模型在為其特定任務(wù)進行訓(xùn)練之前,通常缺乏對醫(yī)學(xué)領(lǐng)域背景的了解(如病理生理過程等),只能完全依賴輸入數(shù)據(jù)的特征和預(yù)測目標之間的統(tǒng)計關(guān)聯(lián)。
缺乏背景信息會導(dǎo)致很難訓(xùn)練一個特定醫(yī)療任務(wù)的模型,特別是當任務(wù)數(shù)據(jù)稀缺時。
GMAI模型可以通過形式化表示醫(yī)學(xué)知識來解決這些缺陷,例如知識圖譜等結(jié)構(gòu)可以讓模型對醫(yī)學(xué)概念和它們之間的關(guān)系進行推理;此外,在基于檢索的方法的基礎(chǔ)上,GMAI可以從現(xiàn)有的數(shù)據(jù)庫中檢索相關(guān)的背景,其形式包括文章、圖像或之前的案例。
由此得到的模型可以提出一些警告,比如「這個病人可能會發(fā)展成急性呼吸窘迫綜合征,因為這個病人最近因嚴重的胸腔創(chuàng)傷入院,而且盡管吸入的氧氣量增加了,但病人動脈血中的氧分壓卻持續(xù)下降。」
由于GMAI模型甚至可能被要求提供治療建議,盡管大部分是在觀察數(shù)據(jù)的基礎(chǔ)上進行訓(xùn)練,該模型推斷和利用醫(yī)學(xué)概念和臨床發(fā)現(xiàn)之間的因果關(guān)系的能力將對臨床適用性起到關(guān)鍵作用。
最后,通過獲取豐富的分子和臨床知識,GMAI模型可以通過借鑒相關(guān)問題的知識來解決數(shù)據(jù)有限的任務(wù)。
機遇
GMAI有潛力通過改善護理和減少臨床醫(yī)生的工作量來影響實際的醫(yī)療過程。
可控性(Controllability)
GMAI可以讓用戶精細地控制其輸出的格式,使復(fù)雜的醫(yī)療信息更容易獲得和理解,所以需要某種GMAI模型根據(jù)受眾需求對模型輸出進行重新復(fù)述。
由GMAI提供的可視化結(jié)果也需要精心定制,比如通過改變視角或用文字標注重要特征等,模型還可以潛在地調(diào)整其輸出中特定領(lǐng)域的細節(jié)水平,或?qū)⑵浞g成多種語言,與不同的用戶進行有效溝通。
最后,GMAI的靈活性使其能夠適應(yīng)特定的地區(qū)或醫(yī)院,遵循當?shù)氐牧?xí)俗和政策,用戶可能需要關(guān)于如何查詢GMAI模型,以及有效利用其輸出的正式指導(dǎo)。
適應(yīng)性(Adaptability)
現(xiàn)有的醫(yī)療人工智能模型難以應(yīng)對分布的轉(zhuǎn)變,但由于技術(shù)、程序、環(huán)境或人口的不斷變化,數(shù)據(jù)的分布可能會發(fā)生巨大變化。
GMAI可以通過上下文學(xué)習(xí)(in-context learning)跟上轉(zhuǎn)變的步伐,例如醫(yī)院可以教GMAI模型解釋來自全新掃描儀的X射線,只需輸入提示和幾個樣例即可。
也就是說,GMAI可以即時適應(yīng)新的數(shù)據(jù)分布,而傳統(tǒng)的醫(yī)療人工智能模型則需要在全新的數(shù)據(jù)集上重新訓(xùn)練;不過目前只有在大型語言模型中觀察到了上下文學(xué)習(xí)(in-context learning)的能力。
為了確保GMAI能夠適應(yīng)上下文的變化,GMAI模型需要在來自多個互補數(shù)據(jù)源以及多樣化的數(shù)據(jù)上進行訓(xùn)練。
比如為了適應(yīng)2019年冠狀疾病的新變種,一個成功的模型可以檢索過去變種的特征,并在面對查詢中的新上下文時更新這些特征,一個臨床醫(yī)生可能直接輸入「檢查這些胸部X射線,看看是否有奧密克戎」。
模型可以對比德爾塔變體,考慮將支氣管和血管周圍的浸潤作為關(guān)鍵信號。
盡管用戶可以通過提示詞手動調(diào)整模型行為,但新技術(shù)也可以發(fā)揮自動納入人類反饋的作用。
用戶可以對GMAI模型的每個輸出進行評價或評論,就像ChatGPT使用的強化學(xué)習(xí)反饋技術(shù),可以借此改變GMAI模型的行為。
適用性(Applicability)
大規(guī)模的人工智能模型已經(jīng)成為眾多下游應(yīng)用的基礎(chǔ),例如GPT-3在發(fā)布后的幾個月內(nèi)就已經(jīng)為不同行業(yè)的300多個應(yīng)用程序提供了技術(shù)支持。
醫(yī)學(xué)基礎(chǔ)模型中,CheXzero可用于檢測胸部X光片中的幾十種疾病,并且不需要在這些疾病的顯式標簽上進行訓(xùn)練。
向GMAI的范式轉(zhuǎn)變將推動具有廣泛能力的大規(guī)模醫(yī)療AI模型的開發(fā)和發(fā)布,可以作為各種下游臨床應(yīng)用的基礎(chǔ):既可以直接使用GMAI的輸出,也可以將GMAI的結(jié)果作為中間表示,后續(xù)再接入一個小型的領(lǐng)域內(nèi)模型。
需要注意的是,這種靈活的適用性也是一把雙刃劍,所有存在于基礎(chǔ)模型中的故障都會在下游應(yīng)用中繼續(xù)傳播。
挑戰(zhàn)
雖然GMAI模型有諸多優(yōu)勢,但相比其他領(lǐng)域,醫(yī)學(xué)領(lǐng)域的安全風險特別高,所以還需要應(yīng)對確保安全部署的難題。
有效性/確認(Validation)
GMAI模型由于其前所未有的多功能性,所以想要進行能力驗證也十分困難。
目前的人工智能模型都是針對特定任務(wù)而設(shè)計的,所以只需要在那些預(yù)定義的用例中進行驗證即可,比如從大腦核磁共振成像中診斷出特定類型的癌癥。
但GMAI模型還可以執(zhí)行終端用戶首次提出的先前未見過的任務(wù)(例如在腦部MRI中診斷其他疾病),如何預(yù)測所有的故障模式是一個更難的問題。
開發(fā)者和監(jiān)管機構(gòu)需要負責解釋GMAI模型是如何被測試的,以及它們被批準用于哪些用例;GMAI界面本身的設(shè)計應(yīng)該在進入未知領(lǐng)域時提出「標簽外使用」的警告,而不能自信地編造不準確的信息。
更廣泛地說,GMAI獨特的廣泛能力要求監(jiān)管部門有遠見,要求機構(gòu)和政府政策適應(yīng)新的范式,還將重塑保險安排和責任分配。
驗證(Verification)
與傳統(tǒng)的人工智能模型相比,GMAI模型可以處理異常復(fù)雜的輸入和輸出,使臨床醫(yī)生更難確定其正確性。
例如傳統(tǒng)模型在對病人的癌癥進行分類時,可能只考慮一項成像研究結(jié)果,只需要一名放射科醫(yī)生或病理學(xué)家就可以驗證該模型的輸出是否正確。
而GMAI模型可能會考慮兩種輸入,并可能輸出初始分類、治療建議和涉及可視化、統(tǒng)計分析和文獻參考的多模式論證。
在這種情況下,可能需要一個多學(xué)科小組(由放射科醫(yī)生、病理科醫(yī)生、腫瘤科醫(yī)生和其他專家組成)來判斷GMAI的輸出是否正確。
因此,無論是在驗證期間還是在模型部署之后,對GMAI輸出的事實核查都是一個嚴峻的挑戰(zhàn)。
創(chuàng)建者可以通過納入可解釋技術(shù)使GMAI輸出更容易驗證,例如,讓GMAI的輸出包括可點擊的文獻及具體的證據(jù)段落,使臨床醫(yī)生能夠更有效地驗證GMAI的預(yù)測。
最后,至關(guān)重要的是,GMAI模型應(yīng)準確表達不確定性,防止用過度自信的陳述來誤導(dǎo)用戶。
社會偏見(Social bias)
醫(yī)學(xué)人工智能模型可能會延續(xù)社會的偏見,并對邊緣化人群造成傷害。
在開發(fā)GMAI時,這些風險可能會更加明顯,海量數(shù)據(jù)的需求和復(fù)雜性會使模型難以確保沒有不良的偏見。
GMAI模型必須得到徹底驗證,以確保它們在特定人群(如少數(shù)群體)中的表現(xiàn)不會不佳。
即使在部署后,模型也需要進行持續(xù)的審計和監(jiān)管,因為隨著模型遇到新的任務(wù)和環(huán)境,可能會出現(xiàn)新的問題,迅速識別和修復(fù)偏見必須是開發(fā)者、供應(yīng)商和監(jiān)管者的首要任務(wù)。
隱私(Privacy)
GMAI模型的開發(fā)和使用對患者隱私構(gòu)成了嚴重風險,可能會接觸到豐富的病人特征,包括臨床測量和信號、分子特征和人口統(tǒng)計信息以及行為和感官追蹤數(shù)據(jù)。
此外,GMAI模型可能會使用更大的架構(gòu),更容易記憶訓(xùn)練數(shù)據(jù)并直接重復(fù)給用戶,可能會暴露訓(xùn)練數(shù)據(jù)集中的敏感病人數(shù)據(jù)。
可以通過去身份化和限制對個別病人的信息收集量,減少暴露數(shù)據(jù)造成的損害。
隱私問題也并不限于訓(xùn)練數(shù)據(jù),部署的GMAI模型也可能暴露當前病人的數(shù)據(jù),例如提示性可以欺騙GPT-3等模型,使其忽略之前的指令;惡意用戶可以強迫模型忽略「不暴露信息」的指令以提取敏感數(shù)據(jù)。