Claude 3再次登頂！化學(xué)專業(yè)一騎絕塵，全面碾壓GPT-4

作者：新智元 2024-03-28 13:15:00

Claude 3在通用任務(wù)上是全球最強(qiáng)已經(jīng)毋庸置疑。更令人驚嘆的是，它在專業(yè)領(lǐng)域的表現(xiàn)，比如化學(xué)任務(wù)，也能遠(yuǎn)遠(yuǎn)領(lǐng)先GPT-4。

Claude 3的誕生又一次震驚了全世界。

Claude 3 Opus，Claude 3中最智能的模型，在大多數(shù)常見的人工智能系統(tǒng)評(píng)估基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，包括本科水平專家知識(shí)（MMLU）、研究生水平專家推理（GPQA）、基礎(chǔ)數(shù)學(xué)（GSM8K）等。

圖片

但在特定的專業(yè)領(lǐng)域，它的表現(xiàn)卻是一個(gè)未知數(shù)。

比如化學(xué)，化學(xué)在藥物發(fā)現(xiàn)和材料科學(xué)等領(lǐng)域發(fā)揮著至關(guān)重要的作用，但現(xiàn)有研究顯示它們?cè)诨瘜W(xué)任務(wù)上的性能令人沮喪。

指令微調(diào)讓LLM完成化學(xué)任務(wù)成為可能

近日，一支來自O(shè)SU的團(tuán)隊(duì)構(gòu)建了一個(gè)專門針對(duì)化學(xué)任務(wù)指令微調(diào)的數(shù)據(jù)集，命名為SMolInstruct。

圖片

論文地址：https://arxiv.org/pdf/2402.09391.pdf

該SMolInstruct測(cè)試集涵蓋了14種任務(wù)，包括名稱轉(zhuǎn)換、屬性預(yù)測(cè)、分子描述、分子生成、正向合成和逆向合成等，這些專業(yè)任務(wù)經(jīng)過精心挑選，以建立堅(jiān)實(shí)的化學(xué)基礎(chǔ)。

它同時(shí)包含340萬個(gè)不同的樣本和160萬個(gè)不同的分子，涵蓋了各種大小、結(jié)構(gòu)和性質(zhì)的化合物，展示了廣泛的化學(xué)知識(shí)覆蓋范圍。這些樣本都經(jīng)過嚴(yán)格的處理步驟，排除了有問題和低質(zhì)量的樣本。

圖片

然后，他們?cè)赟MolInstruct數(shù)據(jù)集上對(duì)四個(gè)開源LLM（Galactica、Llama 2、Code Llama和Mistral）進(jìn)行微調(diào)，創(chuàng)建了一系列專門用于化學(xué)任務(wù)的LLM，稱為LlaSMol。

論文中，主要將LlaSMol模型與兩種類型的模型進(jìn)行比較：

未在SMolInstruct上進(jìn)行微調(diào)的LLM
SOTA任務(wù)特定模型

結(jié)果顯示，LlaSMol在所有任務(wù)上都顯著優(yōu)于現(xiàn)有的LLM，包括GPT-4。

例如，將SMILES轉(zhuǎn)換為分子式的準(zhǔn)確率達(dá)到94.5%，而GPT-4僅為16.4%；對(duì)于逆合成任務(wù)，準(zhǔn)確率達(dá)到32.9%，而GPT-4僅為0%，并接近最先進(jìn)的任務(wù)特定模型SOTA。

這凸顯了SMolInstruct數(shù)據(jù)集的有效性和微調(diào)的好處。

圖片

這個(gè)結(jié)果是合理的，雖然GPT-4很強(qiáng)大，但它畢竟是通用模型，很難直接和經(jīng)過特定的任務(wù)及樣本微調(diào)的LlaSMol去對(duì)抗。

但經(jīng)過微調(diào)的LLM表現(xiàn)已經(jīng)逼近非LLM的任務(wù)特定模型，還是展現(xiàn)了LLM的巨大潛力。

不僅如此，四個(gè)LlaSMol模型在性能上表現(xiàn)出顯著差異，也強(qiáng)調(diào)出了基礎(chǔ)模型對(duì)下游任務(wù)的重要影響。

Claude 3在專業(yè)化學(xué)領(lǐng)域仍舊領(lǐng)先

Claude 3一經(jīng)推出，該團(tuán)隊(duì)便在SMolInstruct 該基準(zhǔn)測(cè)試上對(duì)于Claude 3 Opus同樣進(jìn)行了實(shí)驗(yàn)。

雖然與LlaSMol還是有差距，但在大多數(shù)任務(wù)中，Claude 3的表現(xiàn)遠(yuǎn)遠(yuǎn)超過GPT-4。

圖片

雖然在其中的一個(gè)名稱轉(zhuǎn)換任務(wù)S2F中，也就是一個(gè)將用于表示分子結(jié)構(gòu)的文本字符串轉(zhuǎn)換為分子式去計(jì)算原子數(shù)量的任務(wù)，Claude 3要比GPT-4差得多，但大多數(shù)任務(wù)的大幅領(lǐng)先還是展現(xiàn)了Claude 3在專業(yè)領(lǐng)域?qū)W習(xí)能力上的優(yōu)越性。

Anthropic在官網(wǎng)介紹Claude 3時(shí)，用了「smarter, faster, safer」去描述大模型智能的未來潛力。

而我們?cè)诨瘜W(xué)特定任務(wù)上，已經(jīng)可以感受到了Opus作為通用模型，學(xué)習(xí)的速度之快，能力之強(qiáng)。