成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小模型站起來了,瀏覽器里跑出SOTA,抱抱臉:快逃,合成數(shù)據(jù)不是未來

人工智能 新聞
抱抱臉首席科學(xué)家Thomas Wolf,總結(jié)團(tuán)隊(duì)在開發(fā)小模型時(shí)的經(jīng)驗(yàn),拋出新觀點(diǎn),引起業(yè)界關(guān)注

瀏覽器里直接能跑的SOTA小模型來了,分別在2億、5億和20億級(jí)別獲勝,抱抱臉出品。

圖片

秘訣只有兩個(gè):

  • 狠狠地過濾數(shù)據(jù)
  • 在高度過濾的數(shù)據(jù)集上狠狠地訓(xùn)練

抱抱臉首席科學(xué)家Thomas Wolf,總結(jié)團(tuán)隊(duì)在開發(fā)小模型時(shí)的經(jīng)驗(yàn),拋出新觀點(diǎn),引起業(yè)界關(guān)注:

合成數(shù)據(jù)目前只在特定領(lǐng)域有用,網(wǎng)絡(luò)是如此之大和多樣化,真實(shí)數(shù)據(jù)的潛力還沒完全發(fā)揮。

圖片

目前360M模型版本已發(fā)布Demo,在線可玩(注意流量)。

圖片

在瀏覽器里調(diào)用本地GPU運(yùn)行,連模型權(quán)重帶網(wǎng)頁前端UI,400MB搞定。

圖片

嚴(yán)格過濾網(wǎng)絡(luò)數(shù)據(jù),性能直線上升

針對(duì)微軟Phi系列小模型,聲稱使用了一半合成數(shù)據(jù),效果很好,但不公開數(shù)據(jù)。

開源界扛把子抱抱臉看不下去了:

造一個(gè)對(duì)標(biāo)的大型合成數(shù)據(jù)集,開源它。

而且,團(tuán)隊(duì)隱隱暗示了,此舉也有檢驗(yàn)微軟在測(cè)試集上刷榜的傳聞,到底有沒有這回事的考慮。

圖片

抱抱臉使用當(dāng)時(shí)最好的開源模型Mixtral-8-7B構(gòu)造了25B合成數(shù)據(jù)。

訓(xùn)練出來的模型效果還不錯(cuò),但仍然在某種程度上低于Phi-1和Phi-1.5的水平。

他們嘗試了讓大模型在中學(xué)水平上解釋各種主題,最終只有在MMLU測(cè)試上表現(xiàn)不好,因?yàn)镸MLU是博士水平的題目。
圖片

真正的性能突破,反而來自一項(xiàng)支線任務(wù)

除了用大模型從頭生成合成數(shù)據(jù),也試試用大模型篩選過濾網(wǎng)絡(luò)數(shù)據(jù)

具體來說是使用Llama3-70B-Struct 生成的標(biāo)注開發(fā)了一個(gè)分類器,僅保留FineWeb數(shù)據(jù)集中最具教育意義的網(wǎng)頁

使用經(jīng)過嚴(yán)格過濾的網(wǎng)絡(luò)數(shù)據(jù)后,性能直線上升,并在大多數(shù)基準(zhǔn)測(cè)試中超過了所有其他類似大小的模型,包括Phi-1.5。

圖片

抱抱臉團(tuán)隊(duì)稱這項(xiàng)實(shí)驗(yàn)結(jié)果是“苦樂參半”的:雖然模型性能前所未有的高,但也顯示出了合成數(shù)據(jù)還是比不過真實(shí)數(shù)據(jù)。

后來他們用同樣的思路從自然語言擴(kuò)展到代碼,過濾的代碼數(shù)據(jù)集也被證明是非常強(qiáng)大的。

將HumanEval基準(zhǔn)測(cè)試成績(jī)從13%左右直接提高到20%以上。

最終他們構(gòu)造的混合數(shù)據(jù)集中,去重的過濾數(shù)據(jù)集占絕大部分,純合成數(shù)據(jù)Cosmopedia v2只占15%。

圖片

所以總得來說,合成數(shù)據(jù)還有用嗎?

團(tuán)隊(duì)認(rèn)為,可能只對(duì)確實(shí)缺少真實(shí)數(shù)據(jù)的領(lǐng)域更有意義了,比如推理和數(shù)學(xué)。

圖片

即使小模型也要訓(xùn)練數(shù)萬億tokens

就在他們對(duì)這些新發(fā)現(xiàn)和結(jié)果感到興奮時(shí),一位新實(shí)習(xí)生Elie Bakouch加入了。

雖然他當(dāng)時(shí)只是實(shí)習(xí)生,但確是一位精通各類訓(xùn)練技巧的專家。

圖片

在Elie的幫助下,團(tuán)隊(duì)將模型尺寸從1.7B開始下降到360M甚至170M,也就是對(duì)標(biāo)經(jīng)典模型GPT-1、GPT-2和BERT。

在這個(gè)過程中有了第二個(gè)重要發(fā)現(xiàn):與過去的共識(shí)不同,即使是小模型也要在數(shù)萬億token上訓(xùn)練,時(shí)間越長越好。

此外數(shù)據(jù)退火(Anneal the data)也被證明是有效的,也就是在訓(xùn)練的最后一部分保留一組特殊的高質(zhì)量數(shù)據(jù)。

最終發(fā)布的系列模型適合部署在從智能手機(jī)到筆記本電腦的各種設(shè)備上,最大的1.7B模型BF16精度只占3G內(nèi)存。

作為參考,iPhone 15入門版也有6G,安卓手機(jī)就更多了。

圖片

雖然這次訓(xùn)練出來的基礎(chǔ)模型足夠好,但團(tuán)隊(duì)也還是發(fā)現(xiàn)一個(gè)問題。

過去的對(duì)齊和微調(diào)技術(shù),如SFT、DPO、PPO等都是針對(duì)大模型非常有效,但對(duì)小模型效果并不理想。

團(tuán)隊(duì)分析,對(duì)齊數(shù)據(jù)集中包含許多對(duì)小模型來說過于復(fù)雜的概念,并且缺乏精心設(shè)計(jì)的簡(jiǎn)單任務(wù)。

下一個(gè)新坑也挖好了,有興趣的團(tuán)隊(duì)可以開始搞起,沒準(zhǔn)就成了小模型大救星。

在線試玩:https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-26 09:29:12

ChatGPT4o 圖像圖像

2016-01-06 13:07:34

獨(dú)立游戲開發(fā)者趨勢(shì)

2022-06-30 19:37:28

操作系統(tǒng)麒麟

2024-08-13 13:30:00

2015-10-19 10:06:42

程序員健康運(yùn)動(dòng)

2022-08-11 08:00:00

機(jī)器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2022-01-10 10:23:07

瀏覽器Vitenode

2009-11-26 10:55:41

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2024-12-27 10:00:00

數(shù)據(jù)自動(dòng)駕駛

2016-12-23 17:28:05

移動(dòng)操作系統(tǒng)瀏覽器APP

2022-06-13 11:18:08

合成數(shù)據(jù)AIML

2012-03-30 14:52:03

瀏覽器大戰(zhàn)

2012-09-20 14:29:57

獵豹

2024-01-08 13:38:00

AI模型

2024-08-19 13:18:12

2009-04-25 09:30:55

Firefox瀏覽器

2012-03-20 11:41:18

海豚瀏覽器

2012-03-20 11:31:58

移動(dòng)瀏覽器

2012-03-19 17:25:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久精品亚洲精品 | 欧美日韩最新 | 国产精品伦理一区二区三区 | 国产午夜三级一区二区三 | 色在线免费视频 | 1000部精品久久久久久久久 | 日韩视频精品在线 | 免费看a | 国产精品 亚洲一区 | 天天躁日日躁aaaa视频 | 成人精品鲁一区一区二区 | 亚洲精品欧美 | 一级黄色片网站 | 精品日韩一区 | 在线免费观看亚洲 | 男女视频在线看 | 午夜看片网站 | caoporon| 国产综合久久 | 日本久久久一区二区三区 | 国产精品久久久久久久免费大片 | 久久99蜜桃综合影院免费观看 | 欧美福利| 澳门永久av免费网站 | 久久99精品久久久久子伦 | 第一区在线观看免费国语入口 | 久久久免费精品 | 精品国产乱码久久久久久牛牛 | 成人免费看黄网站在线观看 | 欧美日一区二区 | 蜜桃视频成人 | 久久综合九色综合欧美狠狠 | 中文字幕在线看 | 国产精品视频yy9299一区 | 中文字幕一级 | 国产精品视频在线播放 | www.玖玖玖| 亚洲综合天堂 | jizz视频| 一区二区在线不卡 | 天天操夜夜爽 |