成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10行代碼讓大模型數(shù)學(xué)提升20%,“野路子”研究谷歌也測(cè)上了,主要作者全靠自學(xué)成才

人工智能 新聞
幾名獨(dú)立學(xué)者提出了大模型采樣的改進(jìn)方案,引起了開(kāi)源社區(qū)的關(guān)注。

只要不到10行代碼,就能讓大模型數(shù)學(xué)能力(GSM8k)提升20%!

幾名獨(dú)立學(xué)者提出了大模型采樣的改進(jìn)方案,引起了開(kāi)源社區(qū)的關(guān)注。

目前該方法已在Mistral-7B上取得成效,在Llama3-70B上的測(cè)試也正在進(jìn)行。

圖片

這種方法叫做最小p采樣(min-p sampling),目的是平衡生成文本的連貫性和多樣性

簡(jiǎn)單說(shuō)就是讓模型在不同場(chǎng)合發(fā)揮不同的特性,例如在事實(shí)問(wèn)題上保持性能穩(wěn)定,在寫(xiě)作等場(chǎng)景中又能發(fā)揮創(chuàng)意。

目前該方法已在Mistral-7B上取得成效,在Llama-70B上的測(cè)試也即將進(jìn)行。

圖片

在論文中作者提到,該方法已經(jīng)獲得了開(kāi)源社區(qū)的廣泛應(yīng)用。

圖片

同時(shí)作者還透露,Anthropic和谷歌等閉源模型廠商也已經(jīng)或正在針對(duì)min-p進(jìn)行測(cè)試。

圖片

消息也得到了谷歌方面的確認(rèn),從OpenAI跳槽到谷歌的開(kāi)發(fā)者社區(qū)負(fù)責(zé)人Logan Kilpatrick已經(jīng)回復(fù)說(shuō)“On it”(在做了)。

圖片

微軟Copilot的研究人員Abram Jackson看了后表示,這是他看到的首個(gè)有關(guān)推理過(guò)程token采樣的改進(jìn),未來(lái)還有很大進(jìn)步空間。

圖片

值得一提的是,這項(xiàng)受到廣泛關(guān)注的研究,主要作者M(jìn)inh Nhat Nguyen根本沒(méi)系統(tǒng)學(xué)過(guò)CS,而是靠自學(xué)成才

在一家名為Apart Research的AI安全研究機(jī)構(gòu)幫助下,Minh和團(tuán)隊(duì)其他成員一起完成了該項(xiàng)目。

圖片

動(dòng)態(tài)調(diào)整抽樣閾值

min-p是一種動(dòng)態(tài)截?cái)喑闃?/span>方法,其核心是根據(jù)每一步token分布的最大概率,來(lái)縮放最小概率閾值

這樣做的目的,主要在于平衡生成文本的連貫性和多樣性,特別是在temperature較高的條件下。

具體來(lái)說(shuō),min-p引入了一個(gè)基礎(chǔ)概率閾值p_base,表示進(jìn)入采樣池的最低概率要求。

在每一步生成token時(shí),min-p會(huì)將p_base與當(dāng)前概率分布中最大的token概率p_max相乘,得到一個(gè)縮放后的絕對(duì)閾值p_scaled。

只有概率大于等于p_scaled的token,才能夠進(jìn)入采樣池。

當(dāng)模型對(duì)某個(gè)token的預(yù)測(cè)概率非常高(即p_max很大)時(shí),p_scaled的值也會(huì)很高,導(dǎo)致采樣池大幅縮小,絕大多數(shù)低概率token被過(guò)濾,只留下少數(shù)高把握的選擇,確保了輸出的連貫性;

圖片

而當(dāng)模型對(duì)所有token的預(yù)測(cè)概率都比較接近(p_max較低)時(shí),p_scaled的值也會(huì)相應(yīng)變低,放寬了對(duì)采樣池的要求,納入更多中等概率的token,給予模型更多發(fā)揮空間,生成更加多樣化的內(nèi)容。

圖片

在確定采樣池后,min-p會(huì)根據(jù)temperature對(duì)token概率分布進(jìn)行縮放。

它將token的對(duì)數(shù)概率除以一個(gè)溫度參數(shù)τ,并進(jìn)行歸一化后,就得到了temperature縮放后的概率分布。

大于1的τ值會(huì)使概率分布更加平緩,增加低概率token被選中的機(jī)會(huì);

τ小于1時(shí)則會(huì)使分布更加尖銳,強(qiáng)化高概率token的優(yōu)勢(shì)。

最后,min-p從縮放后的采樣池中,按照調(diào)整后的概率分布,隨機(jī)抽取下一個(gè)token。

穩(wěn)定性和創(chuàng)意,“我全都要”

min-p方法的效果究竟如何呢?作者使用了Mistral-7B作為基礎(chǔ)模型進(jìn)行了測(cè)試,我們來(lái)分場(chǎng)景看一下結(jié)果。

在推理任務(wù)中,作者采用了GPQA數(shù)據(jù)集。當(dāng)temperature為1時(shí),可以看到min-p相比于過(guò)去的top-p顯現(xiàn)出了微小的優(yōu)勢(shì)。

隨著temperature增加,GPQA得分整體上呈現(xiàn)出了下降趨勢(shì),但可以觀察到min-p的下降明顯比top-p更慢。

直到temperature達(dá)到3時(shí)min-p的下降趨勢(shì)才變得明顯,此時(shí)top-p的得分已接近0。

也就是說(shuō),相比于top-p,min-p在推理任務(wù)中更好地保持了所需要的穩(wěn)定性

圖片

同樣需要保持穩(wěn)定性能的還有數(shù)學(xué)類(lèi)任務(wù),這里作者使用了GSM8K數(shù)據(jù)集進(jìn)行了測(cè)試。

結(jié)果min-p所對(duì)應(yīng)的分?jǐn)?shù)隨temperature的下降比在GPQA中更快,但仍然緩于top-p方式。

圖片

第三類(lèi)任務(wù)是創(chuàng)意寫(xiě)作,這時(shí)對(duì)穩(wěn)定性的要求就不是那么高了,而是需要模型發(fā)揮更多的創(chuàng)意。

這項(xiàng)測(cè)試使用AlpacaEval數(shù)據(jù)集完成,實(shí)驗(yàn)數(shù)據(jù)是從開(kāi)源社區(qū)的一名獨(dú)立評(píng)估者那里獲得的。

實(shí)驗(yàn)結(jié)果顯示,在temperature=1.5、min-p=0.1的設(shè)置下,min-p的性能尤其突出,可生成top-p方法難以生成的創(chuàng)意寫(xiě)作內(nèi)容。

在該參數(shù)下,min-p方法得到的文本獲得了58.12%的人類(lèi)評(píng)判優(yōu)選率,遠(yuǎn)高于其他方法在類(lèi)似設(shè)置下的表現(xiàn)。

圖片

論文地址:https://arxiv.org/abs/2407.01082
GitHub:https://github.com/menhguin/minp_paper/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-26 14:22:18

2025-02-25 08:06:05

2017-01-10 14:59:03

開(kāi)發(fā)者故事

2011-04-02 10:50:36

WebHTML 5

2020-01-21 22:00:34

程序員技能開(kāi)發(fā)者

2016-01-27 10:36:25

程序員自學(xué)

2021-12-22 10:57:26

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-02-09 16:52:33

開(kāi)發(fā)者優(yōu)勢(shì)劣勢(shì)

2020-11-04 10:21:37

機(jī)器學(xué)習(xí)技術(shù)人工智能

2015-04-07 13:29:06

編程自學(xué)開(kāi)發(fā)應(yīng)用

2025-06-18 09:03:07

2017-01-10 10:14:47

新手學(xué)習(xí)編程

2020-06-16 09:13:27

數(shù)據(jù)科學(xué)數(shù)據(jù)大數(shù)據(jù)

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2019-04-30 14:36:36

程序員技能開(kāi)發(fā)者

2013-06-26 10:34:56

工程師?谷歌

2020-08-04 08:42:10

Python開(kāi)發(fā)工具

2025-04-07 03:00:00

Dreamer世界模型

2021-04-26 09:04:13

Python 代碼音樂(lè)

2024-08-26 10:00:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜成人在线视频 | 国产精品一二三区在线观看 | 天天干天天干 | 精品国产18久久久久久二百 | 能看的av网站 | 毛片在线免费 | 久久久久久中文字幕 | 日本久久精品视频 | 欧美一区二 | 成人一区二区视频 | 999国产视频 | 精品在线观看入口 | 日韩欧美在线视频 | 国产日韩欧美一区二区 | 欧美啪啪 | 91社区在线观看播放 | caoporn视频 | 日韩无| 国产精品国产自产拍高清 | 亚洲色在线视频 | 欧美日韩国产精品一区二区 | 一区二区三区四区电影视频在线观看 | 人人做人人澡人人爽欧美 | 奇米在线| av一二三四| 久久成人人人人精品欧 | 成人精品视频99在线观看免费 | 国产精品91久久久久久 | 国产欧美一区二区三区在线看蜜臀 | 亚洲综合色丁香婷婷六月图片 | 欧美一级免费看 | 成人性视频在线 | 超碰在线国产 | 久久av一区二区三区 | 久久一区二区三区免费 | 欧美一级www片免费观看 | 国产线视频精品免费观看视频 | 亚洲精品乱码久久久久久蜜桃91 | 欧美精品一区二区免费 | 91高清免费观看 | 美女黄网站 |