奧林匹克競賽里選最聰明的AI:Claude-3.5-Sonnet vs. GPT-4o?
上海交通大學生成式人工智能實驗室 (GAIR Lab) 的研究團隊,主要研究方向是:大模型訓練、對齊與評估。
團隊主頁:https://plms.ai/
AI技術(shù)日新月異,近來Anthropic公司最新發(fā)布的Claude-3.5-Sonnet因在知識型推理、數(shù)學推理、編程任務(wù)及視覺推理等任務(wù)上設(shè)立新行業(yè)基準而引發(fā)廣泛討論:Claude-3.5-Sonnet 已經(jīng)取代OpenAI的GPT4o成為世界上”最聰明的AI“(Most Intelligent AI)了嗎?回答這個問題的挑戰(zhàn)在于我們首先需要一個足夠挑戰(zhàn)的智力測試基準,使得我們可以區(qū)分目前最高水平的AI。
上海交通大學生成式人工智能實驗室(GAIR Lab)推出的OlympicArena[1] (奧林匹克競技場)滿足了這個需求。
奧林匹克學科競賽不僅是對人類(碳基智能)思維敏捷性、知識掌握和邏輯推理的極限挑戰(zhàn),更是AI(“硅基智能”)鍛煉的絕佳練兵場,是衡量AI與“超級智能”距離的重要標尺。OlympicArena——一個真正意義上的AI奧運競技場。在這里,AI不僅要展示其在傳統(tǒng)學科知識上的深度(數(shù)學、物理、生物、化學、地理等頂級競賽),還要在模型間的認知推理能力上展開較量。
近日,同樣是研究團隊,首次提出使用"奧林匹克競賽獎牌榜"的方法,根據(jù)各AI模型在奧林匹克競技場(各學科)的綜合表現(xiàn)進行排名,選出迄今為止智力最高的AI。在此次競技場中,研究團隊重點分析并比較了最近發(fā)布的兩個先進模型——Claude-3.5-Sonnet和Gemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。通過這種方式,研究團隊希望能夠更有效地評估和推動AI技術(shù)的發(fā)展。
圖: 奧林匹克學科競賽獎牌榜
注:研究團隊首先依據(jù)金牌數(shù)量對模型進行排序,如果金牌數(shù)量相同,則按照整體性能分數(shù)來排序。
實驗結(jié)果表明:
- Claude-3.5-Sonnet在整體表現(xiàn)上與GPT-4o相比極具競爭力,甚至在一些科目上超過了GPT-4o(比如在物理、化學和生物學上)。
- Gemini-1.5-Pro和GPT-4V排名緊隨GPT-4o和Claude-3.5-Sonnet之后,但它們之間存在明顯的表現(xiàn)差距。
- 來自開源社區(qū)的AI模型性能明顯落后于這些專有模型。
- 這些模型在此基準測試上的表現(xiàn)不盡人意,表明我們在實現(xiàn)超級智能之路上還有很長的路要走。
- 項目主頁:https://gair-nlp.github.io/OlympicArena/
實驗設(shè)置
研究團隊采取OlympicArena的測試集進行評估。該測試集的答案并未公開,有助于防止數(shù)據(jù)泄露,從而反映模型的真實性能。研究團隊測試了多模態(tài)大模型(LMMs)和純文本大模型(LLMs)。對于LLMs的測試,輸入時不提供任何與圖像相關(guān)的信息給模型,僅提供文本。所有評估均采用零樣本(zero-shot)思維鏈(Chain of Thought)提示詞。
評估對象
研究團隊評估了一系列開源和閉源的多模態(tài)大模型(LMMs)和純文本大模型(LLMs)。對于LMMs,選擇了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等閉源模型,此外還評估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等開源模型。對于LLMs,主要評估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等開源模型。
此外,研究團隊特別包括了新發(fā)布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并將它們與強大的GPT-4o和GPT-4V進行比較。以反映最新的模型性能表現(xiàn)。
評估方法
衡量標準 鑒于所有問題都可以通過基于規(guī)則的匹配進行評估,研究團隊對非編程任務(wù)使用準確率,并對編程任務(wù)使用公正的pass@k指標,定義如下:
本次評估中設(shè)定k = 1且n = 5,c表示通過所有測試用例的正確樣本數(shù)量。
奧林匹克競技場獎牌榜:
與奧運會使用的獎牌系統(tǒng)類似,是一個專門設(shè)計用來評估AI模型在各個學術(shù)領(lǐng)域性能的先驅(qū)性排名機制。該表為在任一給定學科中取得前三名成績的模型頒發(fā)獎牌,從而為比較不同模型提供了一個明確且具有競爭性的框架。研究團隊首先依據(jù)金牌數(shù)量對模型進行排序,如果金牌數(shù)量相同,則按照整體性能分數(shù)來排序。它提供了一種直觀簡潔的方式來識別不同學術(shù)領(lǐng)域中的領(lǐng)先模型,使研究人員和開發(fā)者更容易理解不同模型的優(yōu)勢和劣勢。
細粒度評估:
研究團隊還基于不同學科、不同模態(tài)、不同語言以及不同類型的邏輯和視覺推理能力進行基于準確性的細粒度評估。
結(jié)果與分析
分析內(nèi)容主要關(guān)注Claude-3.5-Sonnet和GPT-4o,同時也對Gemini-1.5-Pro的性能表現(xiàn)進行了部分討論。
總體情況
表:模型在不同學科上的表現(xiàn)
根據(jù)表格的總體結(jié)果,可以觀察到:
- 新發(fā)布的Claude-3.5-Sonnet性能強大,達到了幾乎與GPT-4o相當?shù)乃健烧叩恼w準確率差異僅約1%。
- 新發(fā)布的Gemini-1.5-Pro也展現(xiàn)出了相當?shù)膶嵙Γ诖蠖鄶?shù)學科中的表現(xiàn)超過了GPT-4V(OpenAI當前第二強大的模型)。
- 值得注意的是,在撰寫本報告時,這三個模型中最早的發(fā)布時間僅為一個月前,反映了這一領(lǐng)域的快速發(fā)展。
針對學科的細粒度分析
GPT-4o vs. Claude-3.5-Sonnet:
盡管GPT-4o和Claude-3.5-Sonnet在整體上表現(xiàn)相似,但兩個模型都展現(xiàn)了不同的學科優(yōu)勢。GPT-4o在傳統(tǒng)的演繹和歸納推理任務(wù)上展現(xiàn)出更優(yōu)秀的能力,特別是在數(shù)學和計算機科學方面。Claude-3.5-Sonnet在物理、化學和生物等學科表現(xiàn)出色,特別是在生物學上,它超過GPT-4o 3%。
GPT-4V vs. Gemini-1.5-Pro:
在Gemini-1.5-Pro與GPT-4V的比較中,可以觀察到類似的現(xiàn)象。Gemini-1.5-Pro在物理、化學和生物學方面的表現(xiàn)顯著優(yōu)于GPT-4V。然而,在數(shù)學和計算機科學方面,Gemini-1.5-Pro優(yōu)勢不明顯甚至不如GPT-4V。
從這兩組比較中,可以看出:
- OpenAI的GPT系列在傳統(tǒng)的數(shù)學推理和編程能力上表現(xiàn)突出。這表明GPT系列模型已經(jīng)經(jīng)過了嚴格訓練以處理需要大量演繹推理和算法思維的任務(wù)。
- 相反,當涉及到需要將知識與推理結(jié)合的學科,如物理、化學和生物學時,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展現(xiàn)出了具有競爭性的表現(xiàn)。這體現(xiàn)了不同模型的專業(yè)領(lǐng)域以及潛在的訓練重點,表明在推理密集型任務(wù)以及知識整合型任務(wù)可能存在的權(quán)衡。
針對推理類型的細粒度分析
Caption: 各模型在邏輯推理能力上的表現(xiàn)。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。
GPT-4o 與 Claude-3.5-Sonnet 在邏輯推理能力上的比較:
從表格的實驗結(jié)果可以看出,GPT-4o在大多數(shù)的邏輯推理能力上優(yōu)于Claude-3.5-Sonnet,例如演繹推理、歸納推理、溯因推理、類比推理和批判性思維方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表現(xiàn)超過了GPT-4o。整體而言,兩個模型的表現(xiàn)相當,雖然GPT-4o在大多數(shù)類別上略有優(yōu)勢。
表: 各模型在視覺推理能力上的表現(xiàn)。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和視覺比較(COM)。
GPT-4o vs. Claude-3.5-Sonnet 在視覺推理能力上的表現(xiàn):
從表格的實驗結(jié)果可以看出,Claude-3.5-Sonnet在模式識別和圖表推理方面能力領(lǐng)先,展現(xiàn)了其在模式識別和解讀圖表方面的競爭力。兩個模型在符號解釋方面表現(xiàn)相當,表明它們在理解和處理符號信息方面具有相當?shù)哪芰ΑH欢珿PT-4o在空間推理和視覺比較方面優(yōu)于Claude-3.5-Sonnet,展示了其在需要理解空間關(guān)系和比較視覺數(shù)據(jù)的任務(wù)上的優(yōu)越性。
綜合學科與推理類型的分析,研究團隊發(fā)現(xiàn):
- 數(shù)學和計算機編程強調(diào)復雜演繹推理技巧和基于規(guī)則導出普適性結(jié)論,傾向于較少依賴預(yù)先存在的知識。相比之下,像化學和生物學這樣的學科往往需要大量的知識庫來基于已知的因果關(guān)系和現(xiàn)象信息進行推理。這表明,盡管數(shù)學和編程能力仍然是衡量模型推理能力的有效指標,其他學科更好地測試了模型在基于其內(nèi)部知識進行推理和問題分析方面的能力。
- 不同學科的特點表明了定制化訓練數(shù)據(jù)集的重要性。例如,要提高模型在知識密集型學科(如化學和生物學)中的表現(xiàn),訓練期間模型需要廣泛接觸特定領(lǐng)域的數(shù)據(jù)。相反,對于需要強大邏輯和演繹推理的學科,如數(shù)學和計算機科學,模型則能從專注于純邏輯推理的訓練中受益。
- 此外,推理能力和知識應(yīng)用之間的區(qū)別表明了模型跨學科應(yīng)用的潛力。例如,具有強大演繹推理能力的模型可以協(xié)助需要系統(tǒng)化思維解決問題的領(lǐng)域,如科學研究。而擁有豐富知識的模型在重度依賴現(xiàn)有信息的學科中非常寶貴,如醫(yī)學和環(huán)境科學。理解這些細微差別有助于開發(fā)更專業(yè)和多功能的模型。
針對語言類型的細粒度分析
Caption: 各模型在不同語言問題的能力表現(xiàn)。
以上表格展示了模型在不同語言上的性能表現(xiàn)。研究團隊發(fā)現(xiàn)大多數(shù)模型在英語上的準確度比中文要高,這種差距在排名靠前的模型中尤為顯著。推測可能有以下幾個原因:
- 盡管這些模型包含了大量中文訓練數(shù)據(jù)并且具有跨語言泛化能力,但它們的訓練數(shù)據(jù)主要以英語為主。
- 中文問題的難度比英文問題更具挑戰(zhàn)性,尤其是在物理和化學等科目中,中國奧林匹克競賽的問題更難。
- 這些模型在識別多模態(tài)圖像中的字符方面能力不足,中文環(huán)境下這一問題更為嚴重。
然而,研究團隊也發(fā)現(xiàn)一些中國廠商開發(fā)或基于支持中文的基模型進行微調(diào)的模型,在中文場景下的表現(xiàn)優(yōu)于英文場景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,雖然仍然在英語上表現(xiàn)更好,但與排名靠前的閉源模型相比,它們在英語和中文場景間的準確度差異要小得多。這表明,為中文數(shù)據(jù)乃至全球更多語言優(yōu)化模型,仍然需要顯著的關(guān)注。
針對模態(tài)的細粒度分析
Caption: 各模型在不同模態(tài)問題的能力表現(xiàn)。
以上表格展示了模型在不同模態(tài)上的性能表現(xiàn)。GPT-4o在純文本和多模態(tài)任務(wù)中均優(yōu)于Claude-3.5-Sonnet,并在純文本上表現(xiàn)更突出。另一方面,Gemini-1.5-Pro在純文本和多模態(tài)任務(wù)上表現(xiàn)均優(yōu)于GPT-4V。這些觀察表明,即使是目前可用的最強模型,在純文本任務(wù)上也比多模態(tài)任務(wù)有更高的準確率。這說明模型在利用多模態(tài)信息解決復雜推理問題方面仍有相當大的改進空間。
結(jié)語
研究團隊在本次評測中主要關(guān)注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,并將它們與 OpenAI 的 GPT-4o 和 GPT-4V 進行比較。此外,研究團隊還設(shè)計了一種用于大模型的新穎排名系統(tǒng)——OlympicArena Medal Table,用來清晰的比較不同的模型的能力。研究團隊發(fā)現(xiàn),GPT-4o 在數(shù)學和計算機科學等科目上表現(xiàn)突出,具有較強的復雜演繹推理能力和基于規(guī)則得出普遍結(jié)論的能力。另一方面,Claude-3.5-Sonnet 更擅長根據(jù)已有的因果關(guān)系和現(xiàn)象進行推理。另外,研究團隊還觀察到這些模型在英語語言問題上表現(xiàn)更好,并且在多模態(tài)能力方面有顯著的改進空間。理解模型這些細微差別有助于開發(fā)更專業(yè)化的模型,以更好地滿足不同學術(shù)和專業(yè)領(lǐng)域的多樣化需求。
隨著四年一度的奧運盛事日益臨近,我們不禁想象,如果人工智能也能參與其中,那將是一場怎樣的智慧與技術(shù)的巔峰對決?不再僅僅是肢體的較量,AI的加入無疑將開啟對智力極限的新探索, 也期待更多AI選手加入這場智力的奧運會。