10 大醫學數據集匯總:覆蓋問答/推理/真實臨床記錄/超聲圖像/CT 影像…… 原創
隨著人工智能技術在醫療領域的深度融合與醫學影像技術的持續革新,作為解鎖生命奧秘的關鍵鑰匙,醫學數據正以爆發式的速度累積增長。它突破了傳統醫學研究的邊界,為疾病診療與健康管理帶來了革命性的變革。
在醫學研究從經驗驅動邁向數據驅動的進程中,基礎研究工具的迭代速度逐漸放緩,醫學數據集質量成為決定模型能否從理論構想走向臨床實用的核心要素。 高質量的醫學數據不僅能精準捕捉疾病特征,更能為個性化醫療方案的制定提供可靠支撐。
醫學數據集的構建,絕非簡單的病例羅列。相較于普通數據采集,醫學數據的獲取需要嚴格遵循倫理規范,確保患者隱私安全與數據使用合規。 為保障數據的科學性與有效性,需對數據采集流程進行標準化設計,合理分配訓練集、驗證集與測試集,并建立動態更新機制,定期補充新數據,以適應疾病譜變化與診療技術發展。面對疾病診斷、藥物研發、健康預測等復雜醫學任務,構建數據集時更要深度剖析各領域需求,整合多模態信息,模擬真實臨床場景,為模型訓練提供貼合實際的學習樣本。
總而言之,在精準醫療時代,整個醫學界對高質量醫學數據集的需求呈現井噴式增長。對此,HyperAI 超神經為大家整理了一系列極具價值且應用廣泛的醫學數據集,涵蓋癌癥、心臟、骨 X 光等多個醫學專業領域, 部分來自頂尖醫學院校與權威醫療機構。
點擊查看更多開源數據集:
醫學數據集匯總
1 JMED 中文真實醫療數據數據集
下載地址: https://go.hyper.ai/4jJTa
JMED 數據集是一個基于真實世界醫療數據分布的新型數據集,由 Citrus Team 于 2025 年構建,該數據集源自京東健康互聯網醫院的匿名醫患對話,經過過濾以保留遵循標準化診斷工作流程的咨詢。初始版本包含 1k 份高質量臨床記錄,涵蓋所有年齡段(0-90 歲)和多個專業。每個問題包括 21 個回答選項。
與現有數據集不同,JMED 密切模擬真實的臨床數據,同時促進有效的模型訓練。雖然基于真實的會診數據,但它并不是直接來自實際的醫療數據,因此研究團隊可以整合模型訓練所需的關鍵要素。
2 MedQA 醫學文本問答數據集
預估大小: 125.64 MB
下載地址: https://go.hyper.ai/VfIWx
MedQA 數據集是一個面向醫學領域的問答數據集,模擬了美國醫療執照考試(USMLE)的風格,由麻省理工大學和華中科技大學的研究團隊于 2020 年發布,相關論文成果為「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。
該數據集分別包含 12,723 、 34,251 和 14,123 個問題,旨在評估模型對醫學知識的理解和應用能力。分為訓練集、開發集和測試集,分別用于模型訓練、驗證和測試。
3 Medical O1 Reasoning SFT
醫學推理數據集
預估大小: 21.71 MB
下載地址: https://go.hyper.ai/iVUWA
Medical o1 Reasoning SFT 數據集為香港中文大學和深圳市大數據研究院于 2024 年發布,相關論文成果為「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」。
該數據集專為微調 HuatuoGPT-o1 這一醫學大語言模型而設計,旨在提升其在復雜醫學推理任務中的表現。數據集的構建依賴于 GPT-4o,通過搜索可驗證的醫學問題并利用醫學驗證器進行答案驗證,確保了數據的準確性和可靠性。
4 ROCOv2 Radiology
多模態醫學圖像數據集
預估大小: 17.29 GB
下載地址: https://go.hyper.ai/xs4zS
ROCOv2(Radiology Object in COntext Version 2)是一個創新的多模態醫學圖像數據集,它融合了放射學圖像與相關的醫學概念和描述。該數據集從 PMC Open Access 子集提取放射圖像和相關醫學概念及說明,在 ROCO 數據集基礎上改進了概念提取和過濾。
數據集包含 79,789 張放射學圖像,涵蓋多種臨床模式、解剖區域和方向性(針對 X 射線),每張圖像都有相應的醫學概念說明。可用于訓練圖像注釋模型、多標簽圖像分類、醫學領域模型預訓練、深度學習模型評估、圖像檢索和標題生成等。
5 MedCalc-Bench 醫療計算數據集
預估大小: 16.04 MB
下載地址: https://go.hyper.ai/pDbcu
MedCalc-Bench 是一個專門用于評估大語言模型 (LLMs) 在醫療計算能力方面的數據集,由美國國立衛生研究院國家醫學圖書館 (National Library of Medicine, National Institutes of Health) 和弗吉尼亞大學 (University of Virginia) 等 9 個機構于 2024 年共同發布,相關論文成果為「MEDCALC-BENCH: Evaluating Large Language Models for Medical Calculations」,已被 NeurIPS 2024 接受。
該數據集包含了 10,055 個訓練實例和 1,047 個測試實例,涵蓋了 55 種不同的計算任務。每個實例都包括患者的筆記、一個計算特定臨床值的問題、最終答案值以及逐步解決方案。分為訓練集和測試集,可以用于微調 LLMs,以提高它們在醫療計算任務中的表現。
6 AI Medical Chatbot 醫學對話數據集
預估大小: 118.35 MB
下載地址: https://go.hyper.ai/W5OnS
這是一個為運行醫學聊天機器人而設計的實驗數據集,它包含 256,916 條患者與醫生之間的對話。
7 TCGA-ESCA 癌癥 CT 影像
預估大小: 3.79 GB
下載地址: https://go.hyper.ai/eJWQt
TCGA – ESCA 癌癥 CT 影像是食道癌相關的數據集,由 GDC Data Portal 發布。包含來自 185 人共 5271 個數據文件,該數據集旨在對癌癥診治過程進行全程數字化跟蹤,并以數字檔案的形式記錄檢查結果、處方和療效。
8 TCGA-KICH 癌癥 CT 影像
預估大小: 1.62 GB
下載地址: https://go.hyper.ai/iVUWA
TCGA – KICH 癌癥 CT 影像是腺瘤和腺癌相關的數據集,由 GDC Data Portal 發布。包含來自 113 人共 2,325 個數據文件,該數據集旨在對癌癥診治過程進行全程數字化跟蹤,并以數字檔案的形式記錄檢查結果、處方和療效。
9 癌癥 CT 圖像數據
預估大小: 367.88 MB
下載地址: https://go.hyper.ai/tsMh5
CT Medical Image Analysis Tutorial: CT images from cancer imaging archive with contrast and patient age Dataset 是一個癌癥 CT 圖像數據集,由 Kaggle 于 2016 年發布,相關論文有「Radiology Data from The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] collection」。
其包含 69 位患者的 475 個病例 CT 影響,用于檢查與對比患者年齡和 CT 圖像數據之間的聯系,它是 TCGA-LUAD 肺癌 CT 影響數據庫的一部分。
10 MURA 骨 X 光數據集
預估大小: 6.74 GB
下載地址: https://go.hyper.ai/DlGYH
MURA Dataset 是一個大型骨骼 X 光片數據集,旨在通過 X 光片確定骨骼是否正常,該數據集由斯坦福大學于 2017 年發布,相關論文有「MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs」。
發布者希望該數據集可以在醫學成像技術上取得重大進展,這些技術可以在專家層面進行診斷,以改善放射科醫生人數有限地區的醫療服務。
