突破傳統(tǒng):AI如何應(yīng)對(duì)心電圖中的長(zhǎng)尾挑戰(zhàn)?
近日,上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)附屬瑞金醫(yī)院聯(lián)合團(tuán)隊(duì)發(fā)布基于異常檢測(cè)預(yù)訓(xùn)練的心電長(zhǎng)尾診斷模型。
- 論文鏈接:http://arxiv.org/abs/2408.17154
- 論文標(biāo)題:Self-supervised Anomaly Detection Pretraining Enhances Long-tail ECG Diagnosis
研究背景
隨著醫(yī)療技術(shù)的不斷進(jìn)步,使用無(wú)創(chuàng)手段來(lái)準(zhǔn)確診斷心臟疾病變得尤為重要。在這些手段中,心電圖(ECG)因其低成本和廣泛使用的特點(diǎn),被認(rèn)為是診斷心臟健康的關(guān)鍵工具。然而,分析 ECG 數(shù)據(jù)面臨著一個(gè)重大挑戰(zhàn):數(shù)據(jù)的長(zhǎng)尾分布。這意味著大部分 AI 技術(shù)雖然能有效檢測(cè)常見(jiàn)的心臟病,但對(duì)于稀有或非典型的異常往往難以察覺(jué)。這些未被識(shí)別的異常(如室上性心動(dòng)過(guò)速、室顫和高級(jí)房室傳導(dǎo)阻滯)可能是心源性休克和猝死等致命事件的前兆。因此,開(kāi)發(fā)能夠處理這些罕見(jiàn)異常的 AI 模型至關(guān)重要。
為了應(yīng)對(duì)這些挑戰(zhàn),上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)附屬瑞金醫(yī)院的研究團(tuán)隊(duì)提出了首個(gè)基于異常檢測(cè)預(yù)訓(xùn)練的心電長(zhǎng)尾診斷模型,并在以下三個(gè)方面做出了顯著貢獻(xiàn):
- 創(chuàng)新性方法:該研究首次將自監(jiān)督異常檢測(cè)引入為預(yù)訓(xùn)練方式,模擬專(zhuān)業(yè)醫(yī)生的診斷流程,成功開(kāi)發(fā)出具有長(zhǎng)尾診斷能力的心電 AI 模型,大幅提升了對(duì)常見(jiàn)及稀有心臟疾病的診斷準(zhǔn)確性。
- 嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)驗(yàn)證:研究團(tuán)隊(duì)在一個(gè)大規(guī)模的臨床 ECG 記錄數(shù)據(jù)集上對(duì)模型進(jìn)行了嚴(yán)格驗(yàn)證。該數(shù)據(jù)集包含了 2012 年至 2021 年期間在上海真實(shí)醫(yī)院環(huán)境中收集的超過(guò)一百萬(wàn)份 ECG 樣本,涵蓋了 116 種不同的 ECG 類(lèi)型。經(jīng)過(guò)異常檢測(cè)預(yù)訓(xùn)練的模型在 ECG 診斷及異常檢測(cè) / 定位的內(nèi)部和外部評(píng)估中均展現(xiàn)了顯著的整體準(zhǔn)確性提升。尤其是在處理稀有 ECG 類(lèi)型時(shí),該模型實(shí)現(xiàn)了 94.7% 的 AUROC、92.2% 的靈敏度和 92.5% 的特異性,明顯優(yōu)于傳統(tǒng)方法,并顯著縮小了與常見(jiàn) ECG 類(lèi)型診斷性能之間的差距。
- 前瞻性臨床驗(yàn)證:在前瞻性驗(yàn)證中,采用該模型輔助診斷的心臟病醫(yī)生相比于單獨(dú)工作的醫(yī)生,診斷準(zhǔn)確率提高了 6.7%,診斷完整性提升了 11.8%,診斷時(shí)間減少了 32%。這些結(jié)果表明,將異常檢測(cè)預(yù)訓(xùn)練集成到 ECG 分析中,具有極大的潛力來(lái)解決臨床診斷中長(zhǎng)尾數(shù)據(jù)分布的挑戰(zhàn)。
接下來(lái)將從數(shù)據(jù)、方法與實(shí)驗(yàn)結(jié)果三個(gè)方面介紹原文細(xì)節(jié)。
數(shù)據(jù)介紹
本研究使用了一個(gè)涵蓋從 2012 年至 2021 年期間上海真實(shí)醫(yī)院數(shù)據(jù)的大規(guī)模心電圖(ECG)數(shù)據(jù)集,總共包含 1089367 個(gè)樣本。每個(gè)樣本不僅包括心電圖信號(hào)圖像,還包含一個(gè)詳細(xì)的診斷摘要,記錄了特定的異常情況。數(shù)據(jù)集中涵蓋了從常見(jiàn)到罕見(jiàn)的 116 種心電異常類(lèi)型。例如,房室傳導(dǎo)阻滯是一種較常見(jiàn)的類(lèi)型,有數(shù)萬(wàn)個(gè)樣本;而雙室肥大則是一種非常罕見(jiàn)的異常,僅有極少的樣本。這種明顯的長(zhǎng)尾分布突出了研究中的挑戰(zhàn)。
圖一:心電類(lèi)型長(zhǎng)尾分布情況
這 116 種心電圖類(lèi)型可以大致分為三類(lèi):疾病分類(lèi)、非特異性特征以及信號(hào)采集。研究團(tuán)隊(duì)收集了截至 2020 年的所有心電圖記錄,共計(jì) 416,951 個(gè)正常心電圖和 482,976 個(gè)異常心電圖,并將其用于模型訓(xùn)練。為有效評(píng)估模型在長(zhǎng)尾分布場(chǎng)景下的分類(lèi)性能,研究團(tuán)隊(duì)在 2021 年的心電圖數(shù)據(jù)上進(jìn)行了內(nèi)部驗(yàn)證,驗(yàn)證數(shù)據(jù)包括 94,304 個(gè)正常心電圖和 95,136 個(gè)異常心電圖。為進(jìn)一步測(cè)試模型的適應(yīng)性,團(tuán)隊(duì)根據(jù)心電圖類(lèi)型的出現(xiàn)頻率將驗(yàn)證集劃分為三種不同的測(cè)試集:常見(jiàn)類(lèi)型、不常見(jiàn)類(lèi)型和罕見(jiàn)類(lèi)型。
圖二:數(shù)據(jù)集具體類(lèi)型,年齡性別分布,與外部驗(yàn)證的開(kāi)源數(shù)據(jù)集 PTB-XL 對(duì)比
方法介紹
本研究提出了一個(gè)新穎的兩階段框架,將 ECG 診斷轉(zhuǎn)化為一個(gè)細(xì)粒度、長(zhǎng)尾分類(lèi)問(wèn)題。首先,框架通過(guò)異常檢測(cè)預(yù)訓(xùn)練階段來(lái)定位心電圖中的異常區(qū)域,這有助于后續(xù)分類(lèi)任務(wù)的集中和精確執(zhí)行。基礎(chǔ)假設(shè)是,預(yù)訓(xùn)練通過(guò)專(zhuān)注于區(qū)分正常和異常信號(hào),使模型能夠更有效地識(shí)別罕見(jiàn)異常的特征,進(jìn)而提升模型在長(zhǎng)尾數(shù)據(jù)分布上的表現(xiàn)。分類(lèi)組件無(wú)縫集成到預(yù)訓(xùn)練的異常檢測(cè)模型中,作為一個(gè)額外分類(lèi)頭,確保一個(gè)統(tǒng)一的診斷流程,模擬專(zhuān)家心臟病學(xué)家所進(jìn)行的全面、逐步分析。
該框架的核心創(chuàng)新在于,設(shè)計(jì)了一種專(zhuān)門(mén)針對(duì) ECG 信號(hào)的新型掩碼和恢復(fù)技術(shù),用于自監(jiān)督異常檢測(cè)預(yù)訓(xùn)練。該框架的核心組件是多尺度交叉注意力模塊,大大增強(qiáng)了模型在整合全局與局部信號(hào)特征方面的能力。與現(xiàn)有主要聚焦于時(shí)間序列分析的異常檢測(cè)方法不同,本研究還整合了 QRS 和 QT 間期等關(guān)鍵 ECG 參數(shù)以及年齡、性別等人口統(tǒng)計(jì)因素,這些因素對(duì)于準(zhǔn)確理解個(gè)體心臟狀況至關(guān)重要。通過(guò)這種綜合集成,該框架能夠更細(xì)致地解讀 ECG 信號(hào),減少個(gè)體差異對(duì)診斷的影響,從而顯著提升診斷的準(zhǔn)確性。
圖三:提出的兩階段 ECG 診斷框架仿照醫(yī)生的診斷流程,包括兩個(gè)主要步驟,即自監(jiān)督的心電圖異常檢測(cè)預(yù)訓(xùn)練和基于預(yù)訓(xùn)練的異常檢測(cè)模型微調(diào)分類(lèi)器
實(shí)驗(yàn)結(jié)果
(1)內(nèi)部驗(yàn)證
實(shí)驗(yàn)結(jié)果顯示,使用簡(jiǎn)單的監(jiān)督分類(lèi)方法時(shí),隨著 ECG 類(lèi)型從常見(jiàn)轉(zhuǎn)為稀有,模型性能顯著下降。然而,當(dāng)引入基于預(yù)訓(xùn)練的異常檢測(cè)模型(使用正常 ECG 數(shù)據(jù)進(jìn)行訓(xùn)練)后,這種性能下降得到了明顯緩解。在實(shí)驗(yàn)中,研究團(tuán)隊(duì)通過(guò)兩種設(shè)置(1. 固定異常檢測(cè)模型,僅微調(diào)分類(lèi)器,2. 聯(lián)合訓(xùn)練異常檢測(cè)模型和分類(lèi)器)對(duì)模型進(jìn)行了評(píng)估,結(jié)果顯示,無(wú)論哪種設(shè)置,模型在處理所有數(shù)據(jù)子集時(shí)的指標(biāo)均有所改善,尤其是在應(yīng)對(duì)長(zhǎng)尾稀有數(shù)據(jù)時(shí)表現(xiàn)尤為突出。
表一:心電診斷內(nèi) / 外部驗(yàn)證結(jié)果
除了評(píng)估總體診斷性能外,確保模型在關(guān)鍵人口特征上的公平性也至關(guān)重要,尤其是在臨床應(yīng)用中,不同年齡組和性別之間的診斷準(zhǔn)確性需要保持一致。實(shí)驗(yàn)結(jié)果顯示,男性和女性之間的診斷性能基本相當(dāng)。在所有測(cè)試數(shù)據(jù)中,不同年齡組的診斷性能也相對(duì)一致,雖然在 10 歲以下和 90 歲以上患者中的表現(xiàn)略低,但在 10 歲至 90 歲之間的年齡組中,模型的 AUROC 和特異性均保持在 90% 以上。
圖四:長(zhǎng)尾類(lèi)型的診斷結(jié)果,診斷公平性與異常定位效果
在異常檢測(cè)性能評(píng)估上,研究團(tuán)隊(duì)提出的方法在大多數(shù)評(píng)價(jià)指標(biāo)上均優(yōu)于現(xiàn)有方法,涵蓋所有測(cè)試數(shù)據(jù)集。具體來(lái)說(shuō),該方法實(shí)現(xiàn)了 91.2% 的 AUROC,83.7% 的 F1 分?jǐn)?shù),84.2% 的敏感性,83.0% 的特異性,以及在固定 90% 召回率下 75.6% 的精度,顯著超越了其他競(jìng)爭(zhēng)方法。該模型對(duì)細(xì)微信號(hào)模式變化的敏感性更高,能夠比真實(shí)情況中的廣泛標(biāo)注更精確地定位異常。這些精準(zhǔn)定位為潛在異常提供了寶貴的見(jiàn)解,從而為醫(yī)療從業(yè)者提供了顯著支持。
表二:心電異常檢測(cè)與定位實(shí)驗(yàn)結(jié)果
(2)外部驗(yàn)證
研究團(tuán)隊(duì)使用歐洲的開(kāi)源心電數(shù)據(jù)集 PTB-XL 對(duì)研究方法和基線模型進(jìn)行了外部驗(yàn)證。與內(nèi)部數(shù)據(jù)集相比,該數(shù)據(jù)集在年齡分布、信號(hào)采集質(zhì)量和心電圖信號(hào)類(lèi)型方面存在顯著差異。通過(guò)線性探測(cè)將本方法應(yīng)用于外部驗(yàn)證數(shù)據(jù)集時(shí),聯(lián)合訓(xùn)練的異常檢測(cè)模型與分類(lèi)器實(shí)現(xiàn)了最高的診斷準(zhǔn)確性。值得注意的是,在線性探測(cè)過(guò)程中,只有分類(lèi)器的最終線性層參與了訓(xùn)練,而其余模型參數(shù)則保持不變。
(3)前瞻驗(yàn)證
為了嚴(yán)格評(píng)估模型在真實(shí)臨床環(huán)境中的表現(xiàn),研究團(tuán)隊(duì)在不進(jìn)行微調(diào)的情況下,將模型部署在醫(yī)院環(huán)境中,設(shè)置了 AI 輔助診斷組和對(duì)照組,通過(guò)對(duì)比兩組醫(yī)生的診斷準(zhǔn)確率、診斷效率和結(jié)論完整度,來(lái)驗(yàn)證 AI 模型輔助診斷對(duì)心臟病專(zhuān)家診斷過(guò)程的影響。每份心電圖都由至少三位心臟病專(zhuān)家在不同條件下進(jìn)行評(píng)估:
a. 心臟病專(zhuān)家 A 的任務(wù)是在盡可能短的時(shí)間內(nèi)提供診斷結(jié)論,模擬緊急情況下需要快速?zèng)Q策的場(chǎng)景。
b. 心臟病專(zhuān)家 B 在沒(méi)有時(shí)間限制的情況下獨(dú)立進(jìn)行診斷,代表常規(guī)診斷流程。
c. 心臟病專(zhuān)家 C 在 AI 模型的輔助下進(jìn)行診斷,模型為每個(gè)病例提供了五種最有可能的異常類(lèi)型作為參考。
在時(shí)間限制下,心臟病專(zhuān)家的診斷準(zhǔn)確性較低,心臟病專(zhuān)家 A 的結(jié)論不夠全面,主要集中于識(shí)別關(guān)鍵疾病。相比之下,在沒(méi)有時(shí)間限制的情況下,心臟病專(zhuān)家 B 的診斷全面性和準(zhǔn)確性都有顯著提升。AI 方法的優(yōu)勢(shì)在于分析一份心電圖只需 0.055 秒,速度大約是人類(lèi)急診診斷時(shí)間的 1000 倍。除了速度優(yōu)勢(shì)外,AI 方法還實(shí)現(xiàn)了 81.9% 的診斷準(zhǔn)確率,明顯優(yōu)于未使用輔助工具的人類(lèi) 67.7% 的診斷準(zhǔn)確率。當(dāng)結(jié)合臨床實(shí)踐時(shí),AI 輔助的心臟病專(zhuān)家診斷準(zhǔn)確率達(dá)到了 84.0%,比未使用輔助工具的診斷提高了 6.7%。此外,診斷效率顯著提高,平均診斷時(shí)間縮短了 36 秒。AI 系統(tǒng)還提供了更詳細(xì)的信號(hào)模式和節(jié)律分析,特別是在識(shí)別 T 波變化和竇性心動(dòng)過(guò)速等細(xì)微變化方面,使 11.8% 的心電圖結(jié)論更加全面,從而提升了診斷結(jié)果的整體質(zhì)量。
圖五:前瞻驗(yàn)證中,診斷準(zhǔn)確率,結(jié)論完整性與診斷時(shí)間對(duì)比
在臨床診斷中,尤其是面對(duì)長(zhǎng)尾異常,心臟病專(zhuān)家在時(shí)間限制或經(jīng)驗(yàn)不足的情況下,容易出現(xiàn)誤診,通常表現(xiàn)為較高的特異性(>99%)但敏感性卻非常低(<50%)。將 AI 整合到診斷過(guò)程中,顯著減少了這些誤診,提高了對(duì)罕見(jiàn)異常的檢測(cè)能力,并突出了關(guān)鍵的信號(hào)模式。當(dāng) AI 作為輔助工具使用時(shí),心臟病專(zhuān)家在處理長(zhǎng)尾數(shù)據(jù)時(shí)的敏感性從 46.9% 提高到 71.4%,同時(shí)特異性仍保持在 99.7% 的高水平。這表明 AI 在增強(qiáng)臨床決策,特別是在具有挑戰(zhàn)性的診斷場(chǎng)景中,展現(xiàn)出了巨大的潛力。
表三:前瞻驗(yàn)證中,常見(jiàn)與長(zhǎng)尾心電類(lèi)型的診斷敏感性,特異性對(duì)比
研究?jī)r(jià)值
作為首個(gè)基于異常檢測(cè)預(yù)訓(xùn)練的心電長(zhǎng)尾診斷模型,該研究在以下幾個(gè)方面展現(xiàn)了其重要價(jià)值:
- 臨床應(yīng)用的巨大潛力:通過(guò)異常檢測(cè)預(yù)訓(xùn)練,該模型能夠以遠(yuǎn)超經(jīng)驗(yàn)豐富的心臟病專(zhuān)家的速度,提供準(zhǔn)確且全面的診斷結(jié)果。這表明,AI 輔助系統(tǒng)在臨床診斷中具有廣闊的應(yīng)用前景,無(wú)論是在緊急情況下還是常規(guī) ECG 評(píng)估中,均能發(fā)揮重要作用。
- 減輕長(zhǎng)尾分布影響的能力:異常檢測(cè)預(yù)訓(xùn)練通過(guò)識(shí)別可能的異常特征偏差,使模型能夠集中關(guān)注特定異常區(qū)域,從而更精確地分類(lèi)不同類(lèi)型的異常。這種方法促進(jìn)了對(duì)各種稀有異常的高效學(xué)習(xí),有效應(yīng)對(duì)了不平衡的長(zhǎng)尾異常分布帶來(lái)的挑戰(zhàn)。
- 提供可解釋且信息豐富的定位結(jié)果:除了提升診斷性能外,異常檢測(cè)預(yù)訓(xùn)練還具備一個(gè)關(guān)鍵優(yōu)勢(shì),即能夠精確定位異常。這為模型的診斷決策提供了清晰且易于理解的解釋?zhuān)兄卺t(yī)療從業(yè)者更好地理解診斷結(jié)果。
- 臨床診斷模型的公平性:該研究模型在男性和女性之間,以及 10 至 90 歲各年齡組中的診斷效果相當(dāng)。這些發(fā)現(xiàn)強(qiáng)調(diào)了在臨床實(shí)踐中,考慮人口統(tǒng)計(jì)因素以提升診斷準(zhǔn)確性和公平性的重要性。進(jìn)一步研究有助于揭示這些年齡和性別差異的機(jī)制,從而開(kāi)發(fā)改善所有患者群體健康結(jié)果的策略。
- 可擴(kuò)展的 ECG 診斷框架:該框架專(zhuān)為解決 ECG 數(shù)據(jù)的長(zhǎng)尾分布問(wèn)題而設(shè)計(jì),并經(jīng)過(guò)對(duì) 116 種不同 ECG 類(lèi)型的細(xì)致訓(xùn)練。這種全面覆蓋確保了模型能夠適應(yīng)臨床實(shí)踐中遇到的幾乎所有 ECG 類(lèi)型,使其在多樣化數(shù)據(jù)集中的適應(yīng)性和通用性得到了高度保障。