成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新開(kāi)源之王來(lái)了!1320億參數(shù),邏輯數(shù)理全面打贏Grok,還比Llama2-70B快1倍

人工智能 新聞
在總參數(shù)量接近Llama2-70B的2倍的情況下,DBRX的生成速度也比Llama2-70B快1倍。

“最強(qiáng)”開(kāi)源大模型之爭(zhēng),又有新王入局:

大數(shù)據(jù)巨頭Databricks,剛剛發(fā)布MoE大模型DBRX,并宣稱:

它在基準(zhǔn)測(cè)試中擊敗了此前所有開(kāi)源模型。

包括同為混合專家模型的Grok-1和Mixtral。

圖片

新王攪局,迅速引發(fā)了開(kāi)源社區(qū)的熱議。

畢竟,僅從紙面數(shù)據(jù)來(lái)看,DBRX頗具特點(diǎn):總參數(shù)量為1320億,但因?yàn)槭腔旌蠈<夷P停看?strong>激活參數(shù)量?jī)H為360億。

就是說(shuō),在總參數(shù)量接近Llama2-70B的2倍的情況下,DBRX的生成速度也比Llama2-70B快1倍

圖片

△DBRX vs Llama2-70B

另外,DBRX是在12T token上從頭訓(xùn)練的,訓(xùn)練數(shù)據(jù)量是Llama2的6倍,也就是Chinchilla定律推薦量的18倍。

網(wǎng)友們的第一反應(yīng)be like:

圖片

首席科學(xué)家:打賭輸了就把頭發(fā)染藍(lán)

來(lái)看DBRX的具體細(xì)節(jié)。

DBRX由16個(gè)專家模型組成,每次訓(xùn)練推理會(huì)有4個(gè)專家處于激活狀態(tài)。其上下文長(zhǎng)度為32K。

為了訓(xùn)練DBRX,Databricks團(tuán)隊(duì)從云廠商那里租用了3072個(gè)H100。

一個(gè)細(xì)節(jié)是,團(tuán)隊(duì)向Wired透露,經(jīng)過(guò)兩個(gè)月的訓(xùn)練之后,DBRX已經(jīng)在基準(zhǔn)測(cè)試中取得了不錯(cuò)的分?jǐn)?shù)。而在那個(gè)時(shí)候,他們買的云資源還能再跑一個(gè)星期。

團(tuán)隊(duì)因此產(chǎn)生了小小的分歧:是用這些資源來(lái)訓(xùn)練一個(gè)小杯版本,還是再投喂給模型一些高質(zhì)量數(shù)據(jù),用課程學(xué)習(xí)(curriculum learning)的方法來(lái)提高DBRX在一些特定任務(wù)上的能力?

經(jīng)過(guò)一番熱烈的內(nèi)部討論,Databricks團(tuán)隊(duì)最終決定走課程學(xué)習(xí)路線。

正是這一決策使他們收獲頗豐:

Databricks首席科學(xué)家Jonathan Frankle(就叫他老弗吧)認(rèn)為,課程學(xué)習(xí)使得DBRX“產(chǎn)生了有意義的變化”

具象化一點(diǎn)來(lái)說(shuō),就是老弗本來(lái)覺(jué)得DBRX可能搞不太定代碼生成,還打賭說(shuō)如果他判斷錯(cuò)了,就去把頭發(fā)染成藍(lán)色。

而這是他的最新照片:

圖片

回到正題,DBRX的測(cè)試結(jié)果顯示,它在語(yǔ)言理解、編程、數(shù)學(xué)和邏輯方面都達(dá)到了SOTA,擊敗包括Llama2-70B、Mixtral和Grok-1在內(nèi)的一眾開(kāi)源大模型。

圖片

還在大多數(shù)基準(zhǔn)測(cè)試中都擊敗了GPT-3.5。

圖片

Databricks這次開(kāi)源了DBRX的兩個(gè)版本:DBRX Base和DBRX Instruct,前者是預(yù)訓(xùn)練基礎(chǔ)模型,后者則經(jīng)過(guò)指令微調(diào)。

老弗還對(duì)Wired透露,他們團(tuán)隊(duì)接下來(lái)計(jì)劃對(duì)模型訓(xùn)練的那個(gè)“最后一周”展開(kāi)研究,看看DBRX這樣強(qiáng)大的模型是如何在其中收獲額外技能的。

值得一提的是,去年6月,Databricks以13億美元(約93億人民幣)的價(jià)格,買下了僅62名員工的AI初創(chuàng)公司MosaicML——

就是發(fā)布了MPT系列開(kāi)源模型的那家。

老弗當(dāng)時(shí)就是MosaicML的首席科學(xué)家。此后,他和他的團(tuán)隊(duì)一起留在了Databricks。

圖片

開(kāi)源社區(qū)嗨翻

DBRX發(fā)布不到4小時(shí),已經(jīng)有人把它成功部署到蘋果M2芯片筆記本電腦上了。

圖片

而大模型競(jìng)技場(chǎng)也第一時(shí)間開(kāi)放了DBRX-instruct的投票。

圖片

不過(guò),也有人對(duì)DBRX的“開(kāi)源”提出了質(zhì)疑:

圖片

根據(jù)Databricks公布的協(xié)議,基于DBRX打造的產(chǎn)品,如果月活超過(guò)7億,就必須另行向Databricks提交申請(qǐng)。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-10-12 14:40:10

AI模型

2024-04-09 13:21:00

AI開(kāi)源

2023-09-22 09:06:00

模型開(kāi)源

2024-03-25 13:04:00

AI模型

2024-07-31 09:30:00

2023-09-04 19:09:00

訓(xùn)練模型數(shù)據(jù)

2024-05-29 14:11:00

2024-01-10 17:10:53

數(shù)據(jù)訓(xùn)練

2024-03-18 15:00:48

Grok現(xiàn)已開(kāi)源Grok-1混合專家模型

2022-10-27 08:31:31

架構(gòu)

2024-06-28 13:42:07

2023-03-22 15:14:00

數(shù)據(jù)模型

2024-03-18 08:47:34

馬斯克GrokOpenAI

2021-06-11 09:21:20

開(kāi)源SQL Parser詞法語(yǔ)法分析器

2019-08-06 17:19:22

開(kāi)源技術(shù) 趨勢(shì)

2024-04-30 08:28:44

開(kāi)源大模型Llama

2015-12-09 14:35:55

量子計(jì)算機(jī)谷歌

2023-03-01 14:25:17

LaMA代碼訓(xùn)練

2024-01-12 17:25:45

MoE模型開(kāi)源人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美视频网 | 日本三级电影在线观看视频 | 久久久久久国产一区二区三区 | 国产一级淫片免费视频 | 中文字幕日韩欧美一区二区三区 | 中文字幕日韩欧美一区二区三区 | 久久久蜜桃一区二区人 | 91免费版在线观看 | 精品国产高清一区二区三区 | 二区av| 色精品 | 日韩综合在线播放 | 久久99精品久久久久久 | 日韩综合一区 | 久久这里只有精品首页 | 日韩免费1区二区电影 | 自拍中文字幕 | 国产精品视频一区二区三区, | 国产精品99久久久久久www | 日本免费一区二区三区视频 | 毛片久久久 | 午夜av成人 | 久久久妇女国产精品影视 | 精品欧美乱码久久久久久1区2区 | 欧美日韩一卡二卡 | 国产亚洲一区二区三区 | 欧美一区2区三区3区公司 | 人人插人人 | 成人在线日韩 | 美日韩免费视频 | 91传媒在线观看 | 国产精品高潮呻吟久久久久 | 成人精品国产一区二区4080 | 国内精品在线视频 | 99精品99 | 欧美日韩成人影院 | 黄色片视频网站 | 亚洲国产精品一区在线观看 | 国产在线一区二区 | 国产精品中文字幕在线 | 亚洲视频免费观看 |