o3完爆人類醫(yī)生,OpenAI基準直擊AGI!
最強AI,已擊敗了人類醫(yī)生。
就在剛剛,全球60個國家,262名執(zhí)業(yè)醫(yī)生共同上陣,聯(lián)手OpenAI打造出「最具AGI標志性」的AI健康系統(tǒng)評估標準——HealthBench。
這個基準包含了5,000個基于現(xiàn)實場景的健康對話,每個對話都有醫(yī)生定制的評分標準,來評估模型的響應(yīng)。
論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
在參戰(zhàn)的所有頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。
值得一提的是,在AI輔助下,醫(yī)生的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答質(zhì)量超越了醫(yī)生的水平。
人類免疫學家Derya Unutmaz高度評價道,「這個關(guān)鍵的評估基準,將為AI醫(yī)生鋪平道路。我們現(xiàn)在正處于一場改變醫(yī)學未來,拯救數(shù)百萬人生命的革命開端」。
AGI關(guān)鍵要素,醫(yī)療AI「標尺」
OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,并給予了極大的期待:
希望這項工作的發(fā)布,能為AI朝著改善人類健康的方向發(fā)展提供有力引導。
改善人類健康,將是通用人工智能(AGI)最具決定性的影響之一。
但要實現(xiàn)這一目標,必須確保模型既有用又安全。專業(yè)評估對理解模型在醫(yī)療場景中的表現(xiàn)至關(guān)重要。
盡管學術(shù)界和產(chǎn)業(yè)界已付出巨大努力,但現(xiàn)有評估體系仍存在三大局限:
未能還原真實醫(yī)療場景、
缺乏基于專家意見的嚴格驗證、
難以為前沿模型提供提升空間。
OpenAI團隊秉持AI在醫(yī)療領(lǐng)域評估的三大核心信念,由此設(shè)計出HealthBench:
- 有現(xiàn)實意義(Meaningful):評分應(yīng)反映真實世界影響。突破傳統(tǒng)考試題的局限,精準捕捉患者與臨床工作者使用模型時的復雜現(xiàn)實場景和工作流程。
- 值得信賴(Trustworthy):評分須真實體現(xiàn)醫(yī)師判斷。評估標準必須符合醫(yī)療專業(yè)人員的核心訴求與行業(yè)規(guī)范,為AI系統(tǒng)優(yōu)化提供嚴謹依據(jù)。
- 未飽和(Unsaturated):基準測試應(yīng)推動進步。現(xiàn)有模型必須展現(xiàn)顯著改進空間,持續(xù)激勵開發(fā)者提升系統(tǒng)性能。
在過去一年中,OpenAI與來自26個醫(yī)學專業(yè)、在60個國家(如下所示)擁有執(zhí)業(yè)經(jīng)驗的262名醫(yī)師合作,共同構(gòu)建了HealthBench評估體系。
HealthBench主要面向兩個群體:
1. AI研究社區(qū):旨在推動形成統(tǒng)一的評估標準,激勵開發(fā)出真正有益于人類的模型
2. 醫(yī)療領(lǐng)域:提供高質(zhì)量的證據(jù),幫助更好地理解當前和未來AI在醫(yī)療中的應(yīng)用場景與局限性
與以往那些評估維度較為單一的醫(yī)療基準不同,HealthBench支持更具實際意義的開放式評估。
新研究有很多有趣的發(fā)現(xiàn),包括醫(yī)生評分基線研究等。
o3沖榜 媲美人類醫(yī)生
這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據(jù)。
在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點考察其在性能、成本和可靠性方面的表現(xiàn)。
性能
根據(jù)現(xiàn)實世界健康場景的不同子集,即「主題」,以及體現(xiàn)模型行為的不同維度,即「軸」,所有模型進行PK。
整體來看,o3表現(xiàn)最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。
此外,在最近幾個月里,OpenAI前沿模型在HealthBench上的表現(xiàn)提高了28%。
這一提升,對模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。
成本
接下來,研究團隊還在模型大小和測試時計算scaling軸上,研究了模型的成本與性能。
可以看到,4月份OpenAI發(fā)布的模型(o3,o4-mini,GPT?4.1),刷新了性能成本SOTA。
研究還觀察到,小模型在最近幾個月里,得到了顯著的改進,
盡管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現(xiàn)仍優(yōu)于后者。
比較低、中、高推理水平下的o3、o4-mini和o1模型,結(jié)果顯示測試時計算能力有所提高。
其中,o3與GPT-4o之間的性能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。
可靠性
在醫(yī)療領(lǐng)域,可靠性至關(guān)重要——一次錯誤回應(yīng)可能抵消許多正確回答。
因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(xiàn)(worst-of-n performance)。
也就是說,在給定示例的n個響應(yīng)中,最差的得分是多少?
結(jié)果發(fā)現(xiàn),o3模型在16個樣本時的最差分數(shù)超過GPT-4o的兩倍,展現(xiàn)出更強的穩(wěn)健性和下限表現(xiàn)。
HealthBench系列
此外,OpenAI還推出了HealthBench系列的兩個新成員:HealthBench Hard和HealthBench Consensus。
- HealthBench Hard專為更高難度場景設(shè)計,問題更具挑戰(zhàn)性;
- HealthBench Consensus由多位醫(yī)生共同驗證,確保評估標準的專業(yè)性和一致性。
o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。
在HealthBench Hard上,表現(xiàn)最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰(zhàn)性的目標。
AI與醫(yī)生正面交鋒
那么,這些大模型能夠媲美,甚至超越人類醫(yī)生的專業(yè)判斷?
為此,OpenAI在研究還展開了一場人機對決測試。
262名專業(yè)醫(yī)生被分為了兩組:
- 一組醫(yī)生可以在不使用AI工具的情況下查閱網(wǎng)絡(luò)資源,撰寫最佳回答。
- 另一組醫(yī)生則可以參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高質(zhì)量的回復。
隨后,研究團隊將這些醫(yī)生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業(yè)性和實用性等方面的表現(xiàn)。
關(guān)鍵發(fā)現(xiàn)如下:
2024年9月模型
在測試o1-preview、4o時,他們發(fā)現(xiàn)僅依靠AI生成回答,優(yōu)于沒有參考任何AI醫(yī)生的回答。
更令人振奮的是,當醫(yī)生參考AI回答并加以優(yōu)化后,他們的回答質(zhì)量顯著超越了AI模型本身。
這表明,人類醫(yī)生的專業(yè)判斷,在AI輔助下能產(chǎn)生最佳效果。
2025年4月模型
這次實驗中,研究人員讓醫(yī)生參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答質(zhì)量。
然而,結(jié)果令人意外:
醫(yī)生的優(yōu)化回答與AI原始回答相比,質(zhì)量上沒有顯著提升。
而當前,AI模型已足夠強大,其回答質(zhì)量幾乎達到了人類醫(yī)生最佳水平。
GPT-4.1參評 遠超人類平均水平
為檢驗基于模型的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫(yī)生對HealthBench Consensus中的模型回答予以審閱,以確定這些回答是否符合相應(yīng)評分標準。
基于這些醫(yī)生的反饋,研究團隊構(gòu)建了所謂的「元評估」(meta-evaluation),即評估模型評分與醫(yī)生判斷之間的一致性,重點衡量以下兩點:
1. 模型評分器與醫(yī)生之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫(yī)生達成一致;
2. 醫(yī)生之間的一致性:多位醫(yī)生對同一模型回應(yīng)的評分是否一致。
評估結(jié)果表明,模型評分器與醫(yī)生之間的配對一致性程度,和醫(yī)生之間的配對一致性程度相當。
這說明HealthBench使用的模型評分方法在很大程度上能夠代替專家評分,具有可信度和專業(yè)性。
基線模型
OpenAI將34條共識評分標準的數(shù)據(jù)按七大主題進行分組,評估模型評分器與醫(yī)生評分之間的一致性,并通過三種方式建立對照基線:
(1)典型醫(yī)生(Typical physician)
為了估計人類專家之間的評分一致性,需要對比每位醫(yī)生的評分與其他醫(yī)生的評分,并計算MF1分數(shù)。
也就是,用與模型相同的方式對醫(yī)生進行評分,僅統(tǒng)計該醫(yī)生參與評估的對話示例,且不使用該醫(yī)生自己的評分作為參考。
注釋:在分類任務(wù)中,宏平均F1分數(shù)(Macro F1,簡稱MF1)是對每個類別的F1分數(shù)進行不加權(quán)平均的結(jié)果。
MF1適用于類別不平衡的元評估(meta-evaluation)任務(wù)。
表5按主題報告了加權(quán)平均的醫(yī)生MF1分數(shù),權(quán)重基于每位醫(yī)生參與的元示例數(shù)量。
(2)個體醫(yī)生(Individual physician)
OpenAI還在每個主題下報告了每位醫(yī)生的MF1分數(shù)。
圖12展示了這些醫(yī)生評分分數(shù)的分布情況。
(3)通過這些個體分數(shù),模型評分器在每個主題下的MF1分數(shù)被表示為醫(yī)生分布中的百分位數(shù),以更直觀地理解模型評分表現(xiàn)在「人類專家水平」中所處的位置。
這些基線設(shè)定讓我們能夠客觀評估模型評分系統(tǒng)的可靠性,驗證其是否達到了與醫(yī)生相當?shù)膶I(yè)判斷水平。
結(jié)果:GPT-4.1遠超普通醫(yī)生
如表5所示,在所有主題上,GPT-4.1作為評分模型的表現(xiàn)均明顯優(yōu)于隨機基線。
更具體地說:
- 在7個主題中的5個中,GPT-4.1的評分表現(xiàn)超過了醫(yī)生平均水平;
- 在6個主題中,GPT-4.1的表現(xiàn)處于醫(yī)生評分分布的上半?yún)^(qū)間;
- 在所有主題中,GPT-4.1的評分能力都高于醫(yī)生群體的下三分之一(33百分位)。
這些結(jié)果說明,GPT-4.1作為基于模型的評分器,其表現(xiàn)已能與醫(yī)生專家的評估相媲美。
從圖12可以看到,不同醫(yī)生之間的評分表現(xiàn)差異顯著,說明醫(yī)生間本身也存在一定主觀性和評分風格的差異。
總的來說,只要滿足以下條件,基于模型的評分系統(tǒng)可以與專家評分一樣可靠:
基礎(chǔ)數(shù)據(jù)真實、多樣且注釋充分;
元評估設(shè)計合理;
評分提示(prompt)和評分模型經(jīng)過精心挑選。
由于GPT-4.1在無需復雜推理模型帶來的高成本和延遲的情況下,就已達到了醫(yī)生級別的一致性表現(xiàn),因此它被設(shè)置為HealthBench的默認評分模型。
模擬真實場景,多維度評估
結(jié)合模型合成生成與人工對抗測試方式,OpenAI創(chuàng)建了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。
對話具有以下特點:
- 多輪交互,更符合自然對話流程
- 多語言支持,覆蓋不同語言背景
- 角色多樣,既包括普通用戶,也包括醫(yī)生
- 涵蓋多個醫(yī)學專業(yè)領(lǐng)域與場景
- 精心挑選,具有一定難度,避免模型輕松「答對」
這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。
HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型回答都會根據(jù)該對話特定的、由醫(yī)生撰寫的評分標準進行打分。
這些評分標準詳細說明了「完美回應(yīng)」應(yīng)包含哪些信息,或應(yīng)避免哪些內(nèi)容,比如:應(yīng)提及某個醫(yī)學事實,或避免使用不必要的術(shù)語。
每一條評分標準都有對應(yīng)的分值權(quán)重,根據(jù)醫(yī)生判斷該標準在整體回答中的重要性而設(shè)定。
整個HealthBench數(shù)據(jù)集中包含48,562條獨立評分標準。
HealthBench中的對話被劃分為七大主題,例如急診、應(yīng)對不確定性、全球健康等。
每個主題下都包含多個相關(guān)示例,每個示例都配有對應(yīng)的評分標準(rubric criteria)。
以下是一些數(shù)據(jù)集的示例。
每一條評分標準都對應(yīng)一個評估維度(axis),用于界定該標準評估的是模型行為的哪個方面,例如:
- 準確性(accuracy)
- 溝通質(zhì)量(communication quality)
- 信息查找與澄清能力(context seeking)
這種結(jié)構(gòu)化的設(shè)計,讓HealthBench能夠細致、多角度地評估AI模型在不同醫(yī)療場景中的表現(xiàn),反映在實際應(yīng)用中的可靠性與實用性。
模型的回答由GPT-4.1擔任評分者,根據(jù)每項評分標準判斷是否達成,并根據(jù)滿足標準的總得分與滿分比值,給出整體評分。
HealthBench涵蓋了廣泛的醫(yī)學專科領(lǐng)域,包括:
麻醉學、皮膚病學、放射診斷學、急診醫(yī)學、家庭醫(yī)學、普通外科、內(nèi)科、介入與放射診斷學、醫(yī)學遺傳與基因組學、神經(jīng)外科、神經(jīng)內(nèi)科、核醫(yī)學、婦產(chǎn)科學、眼科學、骨科、耳鼻喉科、病理學、兒科學、物理醫(yī)學與康復、整形外科、精神病學、公共衛(wèi)生與預(yù)防醫(yī)學、放射腫瘤學、胸外科、泌尿外科、血管外科。
這些專科的覆蓋確保了HealthBench在臨床廣度和專業(yè)深度上的嚴謹性。
整個HealthBench構(gòu)建過程涵蓋了重點領(lǐng)域篩選、生成相關(guān)且具有挑戰(zhàn)性的案例樣本、案例標注以及各個環(huán)節(jié)的驗證工作。