成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個開源MoE大模型發布!7Bx8個專家,離GPT-4最近的一集

人工智能
MoE架構全稱專家混合(Mixture-of-Experts),也就是傳聞中GPT-4采用的方案,可以說這是開源大模型離GPT-4最近的一集了。

“取消今晚所有計劃!”,許多AI開發者決定不睡了。

只因首個開源MoE大模型剛剛由Mistral AI發布。

圖片

MoE架構全稱專家混合(Mixture-of-Experts),也就是傳聞中GPT-4采用的方案,可以說這是開源大模型離GPT-4最近的一集了。

圖片

沒有發布會、沒有宣傳視頻,只靠一個磁力鏈接,就產生如此轟動效果。

具體參數還得是網速快的人下載完之后,從配置文件里截圖發出來的:

圖片

7B參數x8個專家,對每個token選擇前兩個最相關的專家來處理。

以至于OpenAI創始成員Karpathy都吐槽,是不是少了點什么?

怎么缺了一個那種排練很多次的專業范視頻,大談特談AI變革啊。

圖片

至于吐槽的是誰,懂得都懂了。

以及他還解釋了為什么AI社區這幾天如此活躍:最大的深度學習會議NeurIPS即將在下周開啟。

MoE,開源大模型新階段?

為何這款開源MoE模型如此受關注?

因為其前身Mistral-7B本來就是開源基礎模型里最強的那一檔,經常可以越級挑戰13B、34B。

并且Mistral-7B以寬松的Apache-2.0開源協議發布,可免費商用,這次新模型很可能沿用這個協議。

在多個評測排行榜上,基于Mistral-7B微調的Zephyr-7B-beta都是前排唯一的7B模型,前后都是規模比他大得多的模型。

LLMSYS Chatbot Arena上,Zephry-7B-beta目前排第12。

圖片

AlpacaEval上,也排到第15。

圖片

目前這個新的MoE模型連個正式名字都還沒有,社區一般稱呼它為Mistral-7Bx8 MoE。

但在大家期待的期待中,新MoE模型對比單體Mistral-7B的提升幅度,就應該像GPT-4對比GPT-3.5那樣。

但是注意了,有人提醒大家MoE對于本地運行來說不是太友好,因為更占內存

但更適合部署在云端,跨設備專家并行,給公司處理并發需求帶來成本優勢。

圖片

行動比較快的公司是前PyTorch成員出走創辦的fireworks.ai。

第一次嘗試、沒有任何優化的情況下,需要兩張80GB內存的卡,優化版本即將推出。

圖片

Replicate上也有了可試玩版本,簡單試用發現中文水平也不錯。

圖片

其實Mistral AI也為大家準備了官方配套代碼,使用了斯坦福去年發布的輕量級MoE庫Megablocks。

圖片

創始人:小模型支持更多有意思的應用

Mistral AI由前DeepMind、前Meta科學家創辦。

剛剛完成一輪4.87億美元的新融資,最新估值逼近20億美元,已晉升獨角獸。

圖片

三位聯合創始人中,CEO Arthur Mensch此前在DeepMind巴黎工作。

CTO Timothée Lacroix和首席科學家Guillaume Lample則在Meta共同參與過Llama系列的研發,Lample是通訊作者之一。

Arthur Mensch曾在接受采訪時談到,讓模型變小是支持Agent發展的路徑之一。

如果能把計算成本降低100倍,就能構建起更多有意思的應用。

圖片

Mistral AI成立于今年5月,種子輪融資1.13億美元。

9月底,Mistral AI以磁力鏈接的形式發布第一個開源模型Mistral-7B,當時很多開發者試用后都覺得Llama-2不香了。

12月初,Mistral AI再次甩出開源MoE模型磁力鏈接,再次掀起一波熱潮。

這就是公司官號僅有的幾次發言。

圖片

不少人都拿來和最近谷歌的過度宣傳做對比。

圖片

最新的梗圖:磁力鏈接就是新的arXiv。

圖片

參考鏈接:
[1]https://x.com/MistralAI/status/1733150512395038967?s=20。
[2]https://github.com/mistralai/megablocks-public。
[3]https://replicate.com/nateraw/mixtral-8x7b-32kseqlen。

責任編輯:姜華 來源: 量子位
相關推薦

2024-04-19 14:52:13

MetaGPT-4模型

2023-12-12 13:16:00

模型訓練

2024-04-23 13:37:00

數據訓練

2024-04-19 10:32:08

2023-07-09 14:50:48

模型調優

2024-02-07 12:34:00

模型數據

2023-12-11 19:08:59

AI模型

2023-12-18 15:16:47

數據模型

2025-06-18 16:42:38

2023-07-13 12:54:42

GPT-4OpenAI

2024-02-06 10:38:10

昆侖萬維大模型

2024-11-11 13:24:02

2023-08-24 13:59:57

模型數據

2024-01-30 21:18:57

模型智能CMMLU

2023-09-11 15:57:16

人工智能模型GPT-4

2023-07-05 09:57:11

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-09-02 11:24:02

模型研究

2023-07-12 16:10:48

人工智能

2023-03-28 08:23:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩国产在线观看 | 久久久精品网 | 国产电影精品久久 | 精产国产伦理一二三区 | 欧美日韩一区二区在线观看 | 国产一区二区视频在线 | 国产成人a亚洲精品 | 国产 欧美 日韩 一区 | 天天躁日日躁狠狠很躁 | 亚洲 日本 欧美 中文幕 | 国产欧美日韩 | 91成人午夜性a一级毛片 | 免费在线观看一区二区 | 国产福利资源在线 | 婷婷色国产偷v国产偷v小说 | 欧美日韩视频在线第一区 | 九九久久99| 日韩视频―中文字幕 | 成人久久 | 一区二区电影 | 午夜激情视频 | 精品综合久久 | 91视频国产精品 | 日韩精品一区二区三区视频播放 | 色综合一区二区三区 | 99精品欧美一区二区蜜桃免费 | 麻豆changesxxx国产 | 成人a免费 | 一区二区三区在线免费 | 久久精品视频在线观看 | 日韩国产一区二区三区 | 国产精品久久久久久 | 在线视频一区二区 | 中文字幕第一页在线 | 久久久国产精品一区 | 国产午夜精品一区二区三区四区 | 久久中文字幕一区 | 亚洲福利网站 | 国产乱码精品1区2区3区 | 久久精品视频免费看 | 国产黄色精品在线观看 |