成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華人科學(xué)團(tuán)隊(duì)推出「思維鏈集」,全面測(cè)評(píng)大模型復(fù)雜推理能力

人工智能 新聞
研究人員希望通過對(duì)大模型復(fù)雜推理能力的評(píng)測(cè)來充分發(fā)掘大模型未來執(zhí)行各種復(fù)雜任務(wù)的潛力。

大模型能力涌現(xiàn),參數(shù)規(guī)模越大越好?

然而,越來越多的研究人員聲稱,小于10B的模型也可以實(shí)現(xiàn)與GPT-3.5相當(dāng)?shù)男阅堋?/span>

真是如此嗎?

OpenAI發(fā)布GPT-4的博客中,曾提到:

在隨意的交談中,GPT-3.5和GPT-4之間的區(qū)別可能很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠閾值時(shí),差異就會(huì)出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

谷歌的開發(fā)者對(duì)PaLM模型也進(jìn)行了類似的觀察,他們發(fā)現(xiàn),大模型的思維鏈推理能力明顯強(qiáng)于小模型。

這些觀察都表明,執(zhí)行復(fù)雜任務(wù)的能力,才是體現(xiàn)大模型能力的關(guān)鍵。

就像那句老話,模型和程序員一樣,「廢話少說,show me the reasoning」。

圖片

來自愛丁堡大學(xué)、華盛頓大學(xué)、艾倫AI研究所的研究人員認(rèn)為,復(fù)雜推理能力是大模型在未來進(jìn)一步朝著更加智能化工具發(fā)展的基礎(chǔ)。

基本的文字總結(jié)歸納能力,大模型執(zhí)行起來確實(shí)屬于「殺雞用牛刀」。

針對(duì)這些基礎(chǔ)能力的測(cè)評(píng),對(duì)于研究大模型未來發(fā)展似乎是有些不務(wù)正業(yè)。

論文地址:https://arxiv.org/pdf/2305.17306.pdf

大模型推理能力哪家強(qiáng)?

這也就是為什么研究人員編制了一個(gè)復(fù)雜推理任務(wù)列表Chain-of-Thought Hub,來衡量模型在具有挑戰(zhàn)性的推理任務(wù)中的表現(xiàn)。

測(cè)試項(xiàng)目包括,數(shù)學(xué)(GSM8K)),科學(xué)(MATH,定理 QA),符號(hào)(BBH) ,知識(shí)(MMLU,C-Eval),編碼(HumanEval)。

這些測(cè)試項(xiàng)目或者數(shù)據(jù)集都是針對(duì)大模型的復(fù)雜推理能力下手,沒有那種誰來都能答得八九不離十的簡(jiǎn)單任務(wù)。

研究人員依然采用思維鏈提示(COT Prompt)的方式來對(duì)模型的推理能力進(jìn)行測(cè)評(píng)。

對(duì)于推理能力的測(cè)試,研究人員只采用最終答案的表現(xiàn)作為唯一的衡量標(biāo)準(zhǔn),而中間的推理步驟不作為評(píng)判的依據(jù)。

如下圖所示,當(dāng)前主流模型在不同推理任務(wù)上的表現(xiàn)。

圖片

測(cè)試結(jié)果:模型越大推理能力越強(qiáng)

研究人員的研究專注于當(dāng)前流行模型,包括GPT、Claude、PaLM、LLaMA和T5模型家族,具體而言:

OpenAI GPT包括GPT-4(目前最強(qiáng))、GPT3.5-Turbo(更快,但能力較弱)、text-davinci-003、text-davinci-002和code-davinci-002(Turbo之前的重要版本)。

圖片

Anthropic Claude包括claude-v1.3(較慢但能力較強(qiáng))和claude-instant-v1.0(較快但能力較弱)。

Google PaLM,包括PaLM、PaLM-2,以及它們的指令調(diào)整版本(FLan-PaLM和Flan-UPaLM),強(qiáng)基礎(chǔ)和指令調(diào)整模型。

圖片

Meta LLaMA,包括7B、13B、33B和65B變體,重要的開放源碼的基礎(chǔ)模型。

GPT-4在GSM8K和MMLU上明顯優(yōu)于其他所有模型,而Claude是唯一一個(gè)與GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等較小的模型掉隊(duì)掉的厲害。

通過實(shí)驗(yàn),研究人員發(fā)現(xiàn),模型性能通常與規(guī)模相關(guān),大致呈對(duì)數(shù)線性趨勢(shì)。

不公開參數(shù)規(guī)模的模型,通常比公開規(guī)模信息的模型表現(xiàn)更好。

LLaMA-65B推理能力接近ChatGPT

另外,研究者指出,開源社區(qū)可能仍需要探索關(guān)于規(guī)模和RLHF的「護(hù)城河」以進(jìn)一步改進(jìn)。

圖片

論文一作符堯總結(jié)道:

1. 開源和封閉之間存在明顯的差距。 

2. 大多數(shù)排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近c(diǎn)ode-davinci-002,GPT-3.5的基礎(chǔ)模型 

4. 綜合上述,最有希望的方向是「在LLaMA 65B上做RLHF」。

圖片

針對(duì)這個(gè)項(xiàng)目,作者對(duì)未來的進(jìn)一步優(yōu)化進(jìn)行了說明:

未來會(huì)增加更多包括更精心選擇的推理數(shù)據(jù)集,尤其是衡量常識(shí)推理、數(shù)學(xué)定理的數(shù)據(jù)集。

以及調(diào)用外部 API 的能力。

更重要的是要囊括更多語言模型,例如基于 LLaMA 的指令微調(diào)模型,例如 Vicuna7等等開源模型。

還可以通過 API像 Cohere 8 一樣訪問PaLM-2 等模型的能力。

總之,作者相信這個(gè)項(xiàng)目可以作為評(píng)估和指導(dǎo)開源大語言模型發(fā)展的一個(gè)公益設(shè)施發(fā)揮很大作用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-17 14:43:51

2023-05-05 13:29:04

模型推理

2024-04-11 11:35:03

大語言模型LLMs

2025-02-10 09:35:00

2025-05-26 08:40:00

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-02-08 17:00:11

2023-09-10 10:51:22

算法結(jié)構(gòu)

2025-03-11 08:50:00

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2023-06-20 13:44:49

清華推理

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2024-04-11 07:10:59

大語言模型AI人工智能

2024-12-19 09:48:07

2023-10-11 12:32:53

AI模型

2024-11-11 11:05:00

大語言模型系統(tǒng)

2023-05-15 15:38:59

AI模型

2025-01-15 10:28:21

2023-12-18 15:00:00

模型數(shù)據(jù)

2024-05-14 09:22:51

模型技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品欧美一区二区三区久久久 | 91久久精| 久久久国产一区二区三区 | 成人18亚洲xxoo | 日韩理论电影在线观看 | 精品国产伦一区二区三区观看说明 | 精品久久99 | 亚洲欧洲精品一区 | 国产精品日韩在线观看一区二区 | 伊人伊人 | 精品国产一区二区在线 | 免费国产一区 | 成人精品视频在线观看 | 日韩h| 久草在线免费资源 | www.国产 | 91久久| 久久99蜜桃综合影院免费观看 | 国产成人免费在线 | 亚洲xxxxx| av在线免费观看网站 | 在线国产一区 | 精品免费国产一区二区三区四区介绍 | 成人亚洲精品 | 紧缚调教一区二区三区视频 | 国产一区| 久草在线| 亚洲免费视频在线观看 | 日韩欧美成人精品 | 日韩精品一区二区三区免费观看 | 色婷婷久久久久swag精品 | 欧美a区 | 亚洲欧洲日韩 | 人人澡人人射 | 国产欧美视频一区 | 国产综合精品一区二区三区 | 日本天天操 | 欧美成人精品欧美一级 | 精品视频在线观看 | 91国语清晰打电话对白 | 色综合久久久久 |