華人科學(xué)團(tuán)隊(duì)推出「思維鏈集」，全面測(cè)評(píng)大模型復(fù)雜推理能力

作者：新智元 2023-06-05 10:01:18

研究人員希望通過對(duì)大模型復(fù)雜推理能力的評(píng)測(cè)來充分發(fā)掘大模型未來執(zhí)行各種復(fù)雜任務(wù)的潛力。

大模型能力涌現(xiàn)，參數(shù)規(guī)模越大越好？

然而，越來越多的研究人員聲稱，小于10B的模型也可以實(shí)現(xiàn)與GPT-3.5相當(dāng)?shù)男阅堋?/span>

真是如此嗎？

OpenAI發(fā)布GPT-4的博客中，曾提到：

在隨意的交談中，GPT-3.5和GPT-4之間的區(qū)別可能很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠閾值時(shí)，差異就會(huì)出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。

谷歌的開發(fā)者對(duì)PaLM模型也進(jìn)行了類似的觀察，他們發(fā)現(xiàn)，大模型的思維鏈推理能力明顯強(qiáng)于小模型。

這些觀察都表明，執(zhí)行復(fù)雜任務(wù)的能力，才是體現(xiàn)大模型能力的關(guān)鍵。

就像那句老話，模型和程序員一樣，「廢話少說，show me the reasoning」。

來自愛丁堡大學(xué)、華盛頓大學(xué)、艾倫AI研究所的研究人員認(rèn)為，復(fù)雜推理能力是大模型在未來進(jìn)一步朝著更加智能化工具發(fā)展的基礎(chǔ)。

基本的文字總結(jié)歸納能力，大模型執(zhí)行起來確實(shí)屬于「殺雞用牛刀」。

針對(duì)這些基礎(chǔ)能力的測(cè)評(píng)，對(duì)于研究大模型未來發(fā)展似乎是有些不務(wù)正業(yè)。

論文地址：https://arxiv.org/pdf/2305.17306.pdf

大模型推理能力哪家強(qiáng)？

這也就是為什么研究人員編制了一個(gè)復(fù)雜推理任務(wù)列表Chain-of-Thought Hub，來衡量模型在具有挑戰(zhàn)性的推理任務(wù)中的表現(xiàn)。

測(cè)試項(xiàng)目包括，數(shù)學(xué)（GSM8K)），科學(xué)（MATH，定理 QA），符號(hào)（BBH），知識(shí)（MMLU，C-Eval），編碼（HumanEval）。

這些測(cè)試項(xiàng)目或者數(shù)據(jù)集都是針對(duì)大模型的復(fù)雜推理能力下手，沒有那種誰來都能答得八九不離十的簡(jiǎn)單任務(wù)。

研究人員依然采用思維鏈提示（COT Prompt）的方式來對(duì)模型的推理能力進(jìn)行測(cè)評(píng)。

對(duì)于推理能力的測(cè)試，研究人員只采用最終答案的表現(xiàn)作為唯一的衡量標(biāo)準(zhǔn)，而中間的推理步驟不作為評(píng)判的依據(jù)。

如下圖所示，當(dāng)前主流模型在不同推理任務(wù)上的表現(xiàn)。

測(cè)試結(jié)果：模型越大推理能力越強(qiáng)

研究人員的研究專注于當(dāng)前流行模型，包括GPT、Claude、PaLM、LLaMA和T5模型家族，具體而言：

OpenAI GPT包括GPT-4（目前最強(qiáng)）、GPT3.5-Turbo（更快，但能力較弱）、text-davinci-003、text-davinci-002和code-davinci-002（Turbo之前的重要版本）。

Anthropic Claude包括claude-v1.3（較慢但能力較強(qiáng)）和claude-instant-v1.0（較快但能力較弱）。

Google PaLM，包括PaLM、PaLM-2，以及它們的指令調(diào)整版本（FLan-PaLM和Flan-UPaLM），強(qiáng)基礎(chǔ)和指令調(diào)整模型。

Meta LLaMA，包括7B、13B、33B和65B變體，重要的開放源碼的基礎(chǔ)模型。

GPT-4在GSM8K和MMLU上明顯優(yōu)于其他所有模型，而Claude是唯一一個(gè)與GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等較小的模型掉隊(duì)掉的厲害。

通過實(shí)驗(yàn)，研究人員發(fā)現(xiàn)，模型性能通常與規(guī)模相關(guān)，大致呈對(duì)數(shù)線性趨勢(shì)。

不公開參數(shù)規(guī)模的模型，通常比公開規(guī)模信息的模型表現(xiàn)更好。

LLaMA-65B推理能力接近ChatGPT

另外，研究者指出，開源社區(qū)可能仍需要探索關(guān)于規(guī)模和RLHF的「護(hù)城河」以進(jìn)一步改進(jìn)。

論文一作符堯總結(jié)道：

1. 開源和封閉之間存在明顯的差距。

2. 大多數(shù)排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近c(diǎn)ode-davinci-002，GPT-3.5的基礎(chǔ)模型

4. 綜合上述，最有希望的方向是「在LLaMA 65B上做RLHF」。

針對(duì)這個(gè)項(xiàng)目，作者對(duì)未來的進(jìn)一步優(yōu)化進(jìn)行了說明：

未來會(huì)增加更多包括更精心選擇的推理數(shù)據(jù)集，尤其是衡量常識(shí)推理、數(shù)學(xué)定理的數(shù)據(jù)集。

以及調(diào)用外部 API 的能力。

更重要的是要囊括更多語言模型，例如基于 LLaMA 的指令微調(diào)模型，例如 Vicuna7等等開源模型。

還可以通過 API像 Cohere 8 一樣訪問PaLM-2 等模型的能力。

總之，作者相信這個(gè)項(xiàng)目可以作為評(píng)估和指導(dǎo)開源大語言模型發(fā)展的一個(gè)公益設(shè)施發(fā)揮很大作用。

責(zé)任編輯：張燕妮來源：新智元

模型測(cè)評(píng)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華人科學(xué)團(tuán)隊(duì)推出「思維鏈集」，全面測(cè)評(píng)大模型復(fù)雜推理能力

大模型推理能力哪家強(qiáng)？

測(cè)試結(jié)果：模型越大推理能力越強(qiáng)

LLaMA-65B推理能力接近ChatGPT