谷歌發布MedGemma,基于Gemma 3構建,專攻醫學文本與圖像理解 原創
近兩日,Google I/O 2025 熱度正盛,公司 CEO Sundar Pichai 在活動首日的主題演講中便分享了多項創新,例如 Gemini 2.5 的全系列升級,Agent Mode 上線 Chrome,編碼智能體Jules 開啟公測,Android XR 正式版亮相等等。而在一眾令人眼花繚亂的重磅更新之中,還隱藏著一個面向于醫療領域的重磅 開源 成果——MedGemma 。
據官方介紹,MedGemma 系列模型基于 Gemma 3 構建, 包含谷歌在醫學文本與圖像理解方面最強大的開源模型,提供 2 個版本,分別為 40 億參數的多模態版本,以及 270 億參數的純文本版本。
其中,MedGemma 4B 多模態版本采用了 SigLIP 圖像編碼器,該編碼器經過專門預訓練,使用的數據涵蓋去標識化的醫學圖像,包括胸部 X 光、皮膚病圖像、眼科圖像和組織病理切片。其大語言模型組件則基于多種醫學數據進行訓練,涵蓋放射影像、組織病理圖像塊、眼科與皮膚科圖像以及醫學文本。而 MedGemma 27B 則是專門在醫學文本上進行了訓練,并針對推理階段的計算進行了優化。
針對醫學文本理解與臨床推理場景,MedGemma 能夠完成病人問診、分診、臨床決策支持以及醫療文本摘要等多項任務。為了方便讀者更加直觀地體驗 MedGemma 的強大能力,HyperAI 超神經官網的「教程」板塊現已上線了「一鍵部署 MedGemma-27b-text-it 醫學推理大模型」, 快來體驗 AI 醫生問診吧!
教程地址:https://go.hyper.ai/Urygb
我們還為新注冊用戶準備了驚喜福利,使用邀請碼「MedGemma」注冊 OpenBayes 平臺,即可獲得 4 小時 RTX A6000 免費使用時長(資源有效期為 1 個月), 數量有限,先到先得!
此外,官網的教程版塊還上線了「vLLM+Open WebUI 部署 II-Medical-8B 醫學推理大模型」, 該模型基于 Qwen3-8B,通過使用特定于醫療領域的推理數據集進行監督微調,并在硬推理數據集上訓練 DAPO(一種可能的優化方法)來優化模型性能。
教程地址:https://go.hyper.ai/8fFFY
Demo 運行
- 進入 hyper.ai 首頁后,選擇「教程」頁面,并選擇「一鍵部署 MedGemma-27b-text-it 醫學推理大模型」,點擊「在線運行此教程」。
- 頁面跳轉后,點擊右上角「克隆」,將該教程克隆至自己的容器中。
- 選擇「NVIDIA A6000 48GB」以及「vLLM」鏡像,OpenBayes 平臺提供了 4 種計費方式,大家可以按照需求選擇「按量付費」或「包日/周/月」,點擊「繼續執行」。新用戶使用下方邀請鏈接注冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
HyperAI 超神經專屬邀請鏈接(直接復制到瀏覽器打開):
https://openbayes.com/console/signup?r=Ada0322_NR0n
- 等待分配資源,首次克隆需等待 2 分鐘左右的時間。當狀態變為「運行中」后,點擊「API 地址」旁邊的跳轉箭頭,即可跳轉至 Demo 頁面。由于模型較大,需等待約 3 分鐘顯示 WebUI 界面,否則將顯示「Bad Gateway」。請注意,用戶需在實名認證后才能使用 API 地址訪問功能。
效果演示
筆者描述的癥狀為:「我感覺有一點頭暈,想吐,并且喉嚨不舒服,我應該怎么辦」,可以看到 MedGemma 不僅給出了「立即就醫」與「自我照顧」的不同解決辦法,同時還提供了可能引發這一系列癥狀的病因。
