開(kāi)源大模型超越GPT-3.5！爆火MoE實(shí)測(cè)結(jié)果出爐，網(wǎng)友：OpenAI越來(lái)越?jīng)]護(hù)城河了

作者：量子位 2023-12-12 13:16:00

人工智能新聞

首個(gè)開(kāi)源MoE大模型Mixtral 8x7B，已經(jīng)達(dá)到甚至超越了Llama 2 70B和GPT-3.5的水平。

一條神秘磁力鏈接引爆整個(gè)AI圈，現(xiàn)在，正式測(cè)評(píng)結(jié)果終于來(lái)了：

首個(gè)開(kāi)源MoE大模型Mixtral 8x7B，已經(jīng)達(dá)到甚至超越了Llama 2 70B和GPT-3.5的水平。

（對(duì)，就是傳聞中GPT-4的同款方案。）

并且由于是稀疏模型，處理每個(gè)token僅用了12.9B參數(shù)就做到了這般成績(jī)，其推理速度和成本也與12.9B的密集模型相當(dāng)。

消息一出，再次在社交媒體上掀起討論熱潮。

OpenAI創(chuàng)始成員Andrej Karpathy第一時(shí)間趕到現(xiàn)場(chǎng)整理起了筆記，還高亮出了重點(diǎn)：這家“歐版OpenAI”透露出的最強(qiáng)模型，還只是“中杯”。

p.s. Mixtral 8×7B甚至只是小杯……

英偉達(dá)AI科學(xué)家Jim Fan則贊說(shuō)：

每個(gè)月都會(huì)有十幾個(gè)新的模型冒出來(lái)，但真正能經(jīng)得住檢驗(yàn)的卻寥寥無(wú)幾，能引發(fā)大家伙熱烈關(guān)注的就更少了。

并且這波啊，不僅是模型背后公司Mistral AI大受關(guān)注，也帶動(dòng)MoE（Mixture of Experts）再次成為開(kāi)源AI社區(qū)的最火議題。

HuggingFace官方就趁熱發(fā)布了一篇MoE的解析博文，同樣打出了“轉(zhuǎn)發(fā)如潮”的效果。

值得關(guān)注的是，Mistral AI的最新估值已經(jīng)沖破20億美元，在短短6個(gè)月中增長(zhǎng)了7倍多……

基本超越Llama 2 70B

說(shuō)起來(lái)，Mistral AI這家公司也是不走尋常路。隔壁大廠前腳剛轟轟烈烈搞發(fā)布會(huì)，慢慢悠悠發(fā)模型，他們可倒好，直接來(lái)了個(gè)程序顛倒：

先甩鏈接開(kāi)放下載，又給vLLM項(xiàng)目（一個(gè)大模型推理加速工具）提了PR，最后才想起來(lái)發(fā)布技術(shù)博客給自家模型整了個(gè)正經(jīng)官宣。

△模型一開(kāi)始是醬嬸發(fā)布的

那么還是先來(lái)看看，官方給出了哪些信息，與這兩天吃瓜群眾自己扒出來(lái)的細(xì)節(jié)有何不同。

首先，官方自信地表示：

Mixtral 8×7B在大多數(shù)基準(zhǔn)測(cè)試中都優(yōu)于Llama 2 70B，推理速度快了6倍。

它是最強(qiáng)大的、具有寬松許可的開(kāi)放權(quán)重模型，也是最佳性價(jià)比之選。

具體來(lái)說(shuō)，Mixtral采用了稀疏混合專家網(wǎng)絡(luò)，是一個(gè)decoder-only的模型。在其中，前饋塊會(huì)從8組不同的參數(shù)組中進(jìn)行選擇——

也就是說(shuō)，實(shí)際上，Mixtral 8×7B并不是8個(gè)7B參數(shù)模型的集合，僅僅是Transformer中的前饋塊有不同的8份。

這也就是為什么Mixtral的參數(shù)量并不是56B，而是46.7B。

其特點(diǎn)包括以下幾個(gè)方面：

在大多數(shù)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于Llama 2 70B，甚至足以擊敗GPT-3.5
上下文窗口為32k
可以處理英語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)和西班牙語(yǔ)
在代碼生成方面表現(xiàn)優(yōu)異
遵循Apache 2.0許可（免費(fèi)商用）

具體測(cè)試結(jié)果如下：

另外，在幻覺(jué)問(wèn)題方面，Mixtral的表現(xiàn)也由于Llama 2 70B：

在TruthfulQA基準(zhǔn)上的成績(jī)是73.9% vs 50.2%；在BBQ基準(zhǔn)上呈現(xiàn)更少的偏見(jiàn)；在BOLD上，Mixtral顯示出比Llama 2更積極的情緒。

此次與Mixtral 8×7B基礎(chǔ)版本一起發(fā)布的，還有Mixtral 8x7B Instruct版本。后者經(jīng)過(guò)SFT和DPO優(yōu)化，在MT-Bench上拿到了8.3的分?jǐn)?shù)，跟GPT-3.5差不多，優(yōu)于其他開(kāi)源大模型。

目前，Mistral官方已經(jīng)宣布上線API服務(wù)，不過(guò)還是邀請(qǐng)制，未受邀用戶需要排隊(duì)等待。

值得關(guān)注的是，API分為三個(gè)版本：

小小杯（Mistral-tiny），對(duì)應(yīng)模型是Mistral 7B Instruct；
小杯（Mistral-small），對(duì)應(yīng)模型是這次發(fā)布的Mixtral 8×7B；
中杯（Mistral-medium），對(duì)應(yīng)的模型尚未公布，但官方透露其在MT-Bench上的得分為8.6分。

有網(wǎng)友直接把GPT-4拉過(guò)來(lái)對(duì)比了一下?？梢钥吹剑斜Ｐ驮赪inoGrande（常識(shí)推理基準(zhǔn)）上的得分超過(guò)了GPT-4。

價(jià)格方面，小小杯到中杯的輸入和輸出價(jià)格分別是每一百萬(wàn)token0.14~2.5歐元和0.42~7.5歐元不等，嵌入模型則是0.1歐元每百萬(wàn)token（1歐元約合7.7人民幣）。

而在線版本，目前還只能到第三方平臺(tái)（Poe、HuggingFace等）體驗(yàn)。

能看懂中文，但不太愿意說(shuō)

雖然官方通告中并沒(méi)有說(shuō)支持中文，但我們實(shí)測(cè)（HuggingFace Chat中的在線版，模型為Instruct版本）發(fā)現(xiàn)，Mixtral至少在理解層面上已經(jīng)具備一定中文能力了。

生成層面上，Mixtral不太傾向于用中文來(lái)回答，但如果指明的話也能得到中文回復(fù)，不過(guò)還是有些中英混雜的情況。

面對(duì)更多的“弱智吧”問(wèn)題，Mixtral的回答雖中規(guī)中矩，但看上去至少已經(jīng)理解了字面含義。

數(shù)學(xué)方面，面對(duì)經(jīng)典的雞兔同籠問(wèn)題，Mixtral的回答從過(guò)程到結(jié)果都完全正確。

即使是高等數(shù)學(xué)問(wèn)題，比如復(fù)雜的函數(shù)求導(dǎo)，Mixtral也能給出正確答案，更難能可貴的是過(guò)程沒(méi)什么問(wèn)題。

而此次的官方通告中專門強(qiáng)調(diào)了Mixtral的代碼能力很強(qiáng)，所以也受到了我們的重點(diǎn)考察。

一道困難難度的LeetCode下來(lái)，Mixtral給出的代碼一次就通過(guò)了測(cè)試。

給你一個(gè)未排序的整數(shù)數(shù)組nums，請(qǐng)你找出其中沒(méi)有出現(xiàn)的最小的正整數(shù)。
請(qǐng)你實(shí)現(xiàn)時(shí)間復(fù)雜度為O(n)并且只使用常數(shù)級(jí)別額外空間的解決方案。

但隨著我們繼續(xù)提問(wèn)，Mixtral的回答一不小心暴露了自己可能專門針對(duì)LeetCode做過(guò)訓(xùn)練，而且還是中文版LC。

為了更加真實(shí)地展示Mixtral的代碼能力，我們轉(zhuǎn)而讓它編寫實(shí)用程序——用JS寫一個(gè)Web版計(jì)算器。

經(jīng)過(guò)幾輪調(diào)整之后，雖然按鈕的布局有些奇怪，但基本的四則運(yùn)算已經(jīng)可以完成了。

此外我們會(huì)發(fā)現(xiàn)，如果在同一個(gè)對(duì)話窗口中不斷補(bǔ)充新的要求，Mixtral的表現(xiàn)可能會(huì)有所下降，出現(xiàn)代碼格式混亂等問(wèn)題，開(kāi)啟新一輪對(duì)話后則會(huì)恢復(fù)正常。

除了API和在線版本，Mistral AI還提供了模型下載服務(wù)，可以用??上的磁力鏈接或通過(guò)Hugging Face下載之后在本地部署。

在??上，已經(jīng)有不少網(wǎng)友在自己的設(shè)備上跑起了Mixtral，還給出了性能數(shù)據(jù)。

在128GB內(nèi)存的蘋果M3 Max設(shè)備上，使用16位浮點(diǎn)精度運(yùn)行Mixtral時(shí)消耗了87GB顯存，每秒可以跑13個(gè)token。

同時(shí)也有網(wǎng)友在M2 Ultra上通過(guò)llama.cpp跑出了每秒52token的速度。

看到這里，你會(huì)給Mistral AI的模型實(shí)力打幾分？

不少網(wǎng)友是已經(jīng)興奮起來(lái)了：

“OpenAI沒(méi)有護(hù)城河”，看起來(lái)肯定會(huì)成為現(xiàn)實(shí)……

要知道，Mistral AI今年5月才剛剛成立。

短短半年，已是一手20億美元估值，一手驚艷整個(gè)AI社區(qū)的模型。

更關(guān)鍵的是，普林斯頓博士生Tianle Cai分析了Mistral-7B與Mixtral-8x7B模型的權(quán)重相關(guān)性做了分析，證明了模型的成功復(fù)用。

隨后網(wǎng)友發(fā)現(xiàn)，Mistral AI創(chuàng)始人也親自證實(shí)，MoE模型確實(shí)就是把7B基礎(chǔ)模型復(fù)制8次，再進(jìn)一步訓(xùn)練來(lái)的。

隨著此類模型的免費(fèi)商用，整個(gè)開(kāi)源社區(qū)、新的創(chuàng)業(yè)公司都可以在此基礎(chǔ)之上推動(dòng)MoE大模型的發(fā)展，就像Llama已然帶動(dòng)的風(fēng)暴那樣。

責(zé)任編輯：張燕妮來(lái)源：量子位

模型訓(xùn)練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開(kāi)源大模型超越GPT-3.5！爆火MoE實(shí)測(cè)結(jié)果出爐，網(wǎng)友：OpenAI越來(lái)越?jīng)]護(hù)城河了

基本超越Llama 2 70B

能看懂中文，但不太愿意說(shuō)

開(kāi)源大模型超越GPT-3.5！爆火MoE實(shí)測(cè)結(jié)果出爐，網(wǎng)友：OpenAI越來(lái)越?jīng)]護(hù)城河了

能看懂中文，但不太愿意說(shuō)