成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Mistral新旗艦決戰(zhàn)Llama 3.1!最強開源Large 2 123B,扛鼎多語言編程全能王

人工智能 新聞
緊跟著Meta的重磅發(fā)布,Mistral Large 2也帶著權重一起上新了,而且參數(shù)量僅為Llama 3.1 405B的三分之一。不僅在編碼、數(shù)學和多語言等專業(yè)領域可與SOTA模型直接競爭,還支持單節(jié)點部署。

昨天正式發(fā)布的Llama 3.1模型,讓AI社區(qū)著實為之興奮。

但是仔細一想就能發(fā)現(xiàn)——405B的參數(shù)規(guī)模,基本是沒法讓個人開發(fā)者在本地運行了。

比如昨天剛發(fā)布,就有一位勇敢的推特網(wǎng)友親測,用一張英偉達4090運行Llama 3.1。

圖片

結果可想而知,等了30分鐘模型才開始回應,緩緩吐出一個「The」。

圖片

最后結果是,Llama給出完整回應,整整用了20個小時。

圖片

根據(jù)Artificial Analysis的估算,你需要部署含2張8×H100的DGX超算才能在本地運行405B。

看來,小扎對Llama 3.1成為開源AI界Linux的期待,可能和現(xiàn)實有不少的差距。目前的硬件能力,很難支持405B模型的大范圍全量運行。

此時,又一位開源巨頭Mistral精準踩點,發(fā)布了他們的最新旗艦模型Mistral Large 2。

圖片

Mistral Large 2在代碼生成、數(shù)學和推理等方面的能力明顯增強,可以與GPT-4o和Llama 3.1一較高下。

而且,模型參數(shù)量僅有123B,不到Llama 3.1 405B的三分之一,完全可以在單個節(jié)點上以大吞吐量運行。

成本效率、速度和性能的「三角形戰(zhàn)士」,Mistral Large當之無愧——

和GPT-4o比,它開源;和Llama 3.1 450B比,它參數(shù)少;和Llama 3 70B比,它性能好。

推特網(wǎng)友驚呼,「開源AI就這么卷起來了嗎!」

圖片

短短一周時間內(nèi),GPT-4o mini、Llama 3.1、Mistral Large 2相繼發(fā)布,有些讓人應接不暇。

「我躺了,你們先卷著。」

圖片

但躺平陣營中絕對不包含ollama。前腳Mistral剛官宣,這邊就火速更新。

圖片

果然,參數(shù)量砍去一大半之后,本地部署難度就大大下降了。

同樣從ollama上下載模型,用96GB內(nèi)存還是可以順利運行起來的。

圖片

雖然3 token/s的生成速度慢了點,但比起用20個小時等模型響應,已經(jīng)是質(zhì)的飛躍了。

用前段時間擊穿GPT-4o的「9.11 vs. 9.9」問題測試Large 2,沒想到它竟然答對了。

圖片

值得一提的是,Mistral Large首代發(fā)布還不到半年(2024年2月),但并沒有開源,用戶只能通過官方API或Azure訪問。

剛發(fā)布的Mistral Large 2則已經(jīng)將模型權重托管到了HuggingFace倉庫中,向研究和非商業(yè)用途開放,但商業(yè)用途的部署仍需要直接聯(lián)系Mistral以取得許可。

圖片

HuggingFace地址:https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

不僅上下文窗口從上一代的32k增長到了128k(同Llama 3.1),而且有強大的多語言能力,支持數(shù)十種自然語言以及80多種編程語言。

令人印象深刻的是,Mistral Large的預訓練版本在MMLU上的準確率可以達到84%。

這個成績已經(jīng)超過了340B參數(shù)的Nemotron,而且與GPT-4(85.1%)和Llama 3.1(87.3%)基本處于同一水平,可以說是將模型性能/成本的Pareto最優(yōu)邊界又向前推進了一步。

圖片

出自Llama 3.1論文

代碼與推理

基于Mistral之前訓練Codestral 22B和Codestral Mamba的經(jīng)驗,研究團隊對Mistral Large 2也進行了大量代碼訓練,支持包括Python、Java、C、C++、JavaScript 和Bash在內(nèi)的80多種語言。

在代碼生成方面,Mistral Large 2遠遠優(yōu)于Llama 3.1 70B和之前的Mistral Large,與Llama 3.1 405B不相上下。

圖片

團隊在提高模型的推理能力方面也投入了大量精力。在訓練過程中,特別關注減少模型的「幻覺」。

實現(xiàn)方法就是通過微調(diào),讓模型的響應更加謹慎而敏銳,確保它提供可靠、準確的輸出。

此外,經(jīng)過訓練的Mistral Large 2還被賦予了一個品質(zhì):承認自己并非無所不知。

在無法找到解決方案,或沒有足夠信息支撐有效回答時,模型會直接承認而非「不懂裝懂」。

Mistral Large 2這種對答案準確性的「責任感」,提升了在數(shù)學基準上的表現(xiàn),展現(xiàn)了更強的推理和解決問題的能力。

在用于代碼生成的HumanEval和HumanEval Plus基準測試中,它的表現(xiàn)優(yōu)于Claude 3.5 Sonnet和Llama 3.1,僅次于GPT-4o。

圖片

代碼生成基準測試

在MultiPL-E基準上,Mistral Large 2的平均生成準確率領先Llama 3.1將近1個百分點,而且可以媲美GPT-4o。

縱向比較也可以看出,Codestral系列的經(jīng)驗對Mistral Large 2有不少助益。僅僅過了5個月,Mistral Large系列的生成準確率就從58.8%飆升至74.4%。

圖片

而且,在以數(shù)學為重點的基準測試中(GSM8K和MATH),它的表現(xiàn)也可圈可點。

圖片

GSM8K(8-shot)和MATH(0-shot,無CoT)基準測試

指令執(zhí)行與對齊

Mistral Large 2的指令執(zhí)行和對話能力也得到了顯著提升,在執(zhí)行精確指令和處理長時間多輪對話方面表現(xiàn)尤為出色。

以下是其在Wild Bench和Arena Hard基準測試上的表現(xiàn):

圖片

通用對齊基準測試

在一些基準測試中,生成較長的回答通常會提高得分。

然而,在許多商業(yè)應用中,答案的簡潔至關重要——簡短的模型響應可以促進更快速的交互,讓推理過程更加高效且降低成本。

Mistral聲稱Large 2可以比領先的人工智能模型產(chǎn)生更簡潔的響應,因為后者傾向于喋喋不休。

下圖展示了不同模型在MT Bench基準測試中問題的平均生成長度:

圖片

語言多樣性

如今,許多商業(yè)應用涉及處理多語言文檔。

盡管大多數(shù)模型以英語為中心,但Mistral Large 2在大量多語言數(shù)據(jù)上進行了訓練。

比如,在法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、俄語、中文、日語、韓語、阿拉伯語和印地語等多種語言上,Mistral Large 2都有出色的性能。

以下是Mistral Large 2在多語言MMLU基準測試中的表現(xiàn)結果,并與之前的Mistral Large、Llama 3.1模型以及Cohere的Command R+進行了比較:

圖片

在下圖的8種語言上,Mistral Large 2的性能可以媲美Llama 3.1 405。但值得注意的是,所有模型似乎都在中文MMLU上取得了最低分。

圖片

工具使用與函數(shù)調(diào)用

Mistral Large 2具備了更強的函數(shù)調(diào)用和檢索能力,能夠熟練執(zhí)行并行和順序的函數(shù)調(diào)用,準確率甚至超過了GPT-4o。

圖片

這意味著,Mistral Large 2可以成為復雜商業(yè)應用的核心引擎。

除了直接從HuggingFace上下載權重,用戶可以通過官方API平臺la Plateforme訪問或微調(diào)模型,免費聊天機器人le chat也已經(jīng)部署了Mistral Large 2。

Vertex AI、Azure Studio等第三方云平臺也托管了Mistral Large 2的API。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2011-05-12 09:43:20

掃描儀評測

2011-07-15 15:50:35

2011-05-06 14:41:24

微星

2014-04-16 14:50:20

Spark

2024-04-23 07:00:00

2025-03-06 07:44:36

2024-02-22 10:09:00

開源模型

2021-06-29 21:48:32

開源語言架構

2024-04-30 08:28:44

開源大模型Llama

2024-07-02 09:20:59

2023-09-07 13:25:00

AI模型

2011-09-23 11:08:42

掃描儀評測

2019-12-05 16:00:15

Vim插件編程文本編輯器

2024-07-30 13:48:37

2015-08-19 09:45:41

2011-08-05 17:54:33

Cocoa Touch 多語言

2012-04-19 11:40:21

Titanium

2014-07-09 09:20:06

WPFWPF應用
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人黄色在线 | 国产区在线观看 | 中文字幕第二十页 | 国产精品久久久久久久久久99 | 精产国产伦理一二三区 | 日韩一区二区久久 | 91秦先生艺校小琴 | 91精品国产色综合久久不卡98 | 欧美国产91 | 日本久久久一区二区三区 | 久久久久久国产精品久久 | 天天操天天射天天舔 | av片网站 | 99精品国自产在线 | 99热热热热 | 国产高清在线精品一区二区三区 | 久久99国产精品 | 天天色av| 亚洲精品久久久久avwww潮水 | 美女艹b | 精品国产一区探花在线观看 | 黄色免费三级 | 日韩欧美在线一区 | 91玖玖| 操久久 | 国产一区二区视频免费在线观看 | 中文字幕欧美在线观看 | 亚洲一区二区三区免费视频 | 在线观看av不卡 | av一区二区三区四区 | 日本免费一区二区三区四区 | 成人免费视频 | 欧美日韩在线电影 | 久久久99精品免费观看 | 成人av在线大片 | 日韩福利在线观看 | 欧美日韩亚洲在线 | 免费亚洲视频 | 日本电影免费完整观看 | 在线播放中文 | 欧美大片久久久 |