本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS! 原創(chuàng)
編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
大模型的內(nèi)卷遠(yuǎn)遠(yuǎn)沒有結(jié)束了。今天凌晨,MiniMax 扔出了一記重磅炸彈——MiniMax-M1。
先來(lái)看看,M1 有多猛?
- 上下文長(zhǎng)度 100 萬(wàn) tokens(這里指的輸入,達(dá)到全球最高水平),秒殺 DeepSeek R1 的 8 倍;
- 激活參數(shù) 45.9 億/次,精度不打折;
- 計(jì)算效率較 DeepSeek 提升 4 倍,生成 10 萬(wàn)token只用后者 1/4 的算力;
- 思維預(yù)算最高 80K,真正的「長(zhǎng)考型」AI;
- 全面超越 Qwen3-235B、DeepSeek-R1,尤其擅長(zhǎng)復(fù)雜編程、工具使用與長(zhǎng)文本理解。
如果數(shù)字看著頭疼,可以看下省流版:
一、長(zhǎng)推理能力:實(shí)現(xiàn)具有實(shí)際生產(chǎn)力的代碼任務(wù),并具備競(jìng)賽級(jí)的數(shù)學(xué)解題能力。
二、強(qiáng)工具調(diào)用能力:穩(wěn)定處理包含長(zhǎng)鏈路思考與工具調(diào)用的復(fù)雜任務(wù),是Agent時(shí)代的優(yōu)秀基座模型。
三、百萬(wàn)token長(zhǎng)上文支持:提供卓越的海量信息檢索與分析能力,在超長(zhǎng)多輪對(duì)話中保持強(qiáng)大記憶力。
“省省流”版本,面向三個(gè)場(chǎng)景:生產(chǎn)級(jí)別環(huán)境、Agent工具調(diào)用、超長(zhǎng)上下文的復(fù)雜任務(wù)。
多項(xiàng)指標(biāo)屠榜,超越 DeepSeek R1
MiniMax-M1,這次除了兩個(gè)版本,即,輸出 token 方面分別對(duì)應(yīng) 40K 和 80K 的“思維預(yù)算(thinking budget)”。
在 Minimax 在 Gihub 上放出的技術(shù)報(bào)告中顯示——
標(biāo)準(zhǔn)評(píng)估基準(zhǔn)方面,MiniMax-M1 顯著優(yōu)于當(dāng)前主流開源大模型,如 DeepSeek-R1 和 Qwen3-235B,特別是在復(fù)雜軟件工程、工具使用、長(zhǎng)上下文處理等任務(wù)中表現(xiàn)突出。
下圖是核心的基準(zhǔn)表現(xiàn),比如擴(kuò)展思維能力、數(shù)學(xué)、編程、推理與知識(shí)、軟件工程、長(zhǎng)上下文、工具調(diào)用智能體、事實(shí)問答、通用助手任務(wù)等。(下表為 80K 與 40K 版本對(duì)比,其他模型包括 Qwen3、DeepSeek、Claude、Gemini、OpenAI 等):
圖片
為了便于大家查看,這里特別制作了一組核心對(duì)比。
圖片
從上圖可以看到,MiniMax-M1 尤其在長(zhǎng)文本理解、軟件工程與多工具使用方面有明顯領(lǐng)先。
如何做到的?技術(shù)亮點(diǎn)一覽
省流版:
1.Hybrid-MoE 架構(gòu) + Lightning Attention:少激活,大聰明,既節(jié)省算力又保證推理力。
2.大規(guī)模 RL 訓(xùn)練 + 自研 CISPO 強(qiáng)化學(xué)習(xí)算法:不是靠刷網(wǎng)頁(yè)堆語(yǔ)料,而是真刀真槍去練“腦力”。
MiniMax-Text-01 擁有 4560 億參數(shù),每個(gè) token 激活參數(shù)為 45.9 億。延續(xù)其設(shè)計(jì)理念,M1 模型原生支持長(zhǎng)達(dá) 100 萬(wàn)個(gè) token 的上下文長(zhǎng)度,是 DeepSeek R1 的 8 倍。
此外,得益于 lightning attention 機(jī)制,M1 在推理時(shí)大幅降低計(jì)算開銷——例如在生成長(zhǎng)度為 10 萬(wàn) token 的任務(wù)中,M1 所需的計(jì)算量?jī)H為 DeepSeek R1 的 25%。
這使得 M1 特別適用于需要處理超長(zhǎng)輸入、進(jìn)行深度思考的復(fù)雜任務(wù)。
那么,為什么 M1 用更少的參數(shù)量 456B就做到了超越 DeepSeek R1 的水平?究竟怎么訓(xùn)練的呢?
官方介紹到,M1 通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,覆蓋從傳統(tǒng)數(shù)學(xué)推理到基于沙盒環(huán)境的真實(shí)世界軟件工程等多種任務(wù)。為此,Minimax 團(tuán)隊(duì)開發(fā)了一套高效的 RL 擴(kuò)展框架,亮點(diǎn)包括:
- CISPO 算法:提出了一種新穎的策略——不裁剪 token 更新,而是裁剪重要性采樣權(quán)重,在多種 RL 變體中表現(xiàn)更優(yōu);
- 混合注意力設(shè)計(jì):天然增強(qiáng) RL 訓(xùn)練效率,并解決了混合架構(gòu)在擴(kuò)展過程中的一系列獨(dú)特挑戰(zhàn)。
此外,MiniMax-M1 開放了:
- HuggingFace 權(quán)重下載(40K / 80K 兩種版本)
- vLLM 快速部署指南(企業(yè)用,真香)
- Transformers 接入文檔
- Function Calling(函數(shù)調(diào)用)支持
- 支持聯(lián)網(wǎng)搜索的 Chatbot / API。
- 甚至還提供通過 MCP 使用以下能力:視頻生成、圖像生成、語(yǔ)音合成、聲音克隆。
Agent 能力實(shí)測(cè):推理比DS-R1更快!
登錄 MiniMax 的對(duì)話界面,你就會(huì)發(fā)現(xiàn)相當(dāng)囂張的問候語(yǔ):
Ask anything!No question too long,no query too complex.(盡管來(lái)問!沒有問題太長(zhǎng),也沒有提問太復(fù)雜。)
圖片
關(guān)于 M1 的實(shí)測(cè)案例,MiniMax 在官方媒體賬號(hào)上有放出不少。這里小編更關(guān)心的 Agent 場(chǎng)景下的表現(xiàn)。
正如前文所提到的,在 TAU-bench 方面, M1-80k 取得了 62 分的結(jié)果,幾乎是 Qwen-32B 得分的兩倍,同時(shí)也超越了 Deepseek R1 的 53.5 分。
一位 X 網(wǎng)友對(duì)于 M1 在零售場(chǎng)景的表現(xiàn)大為驚嘆:
“在 TAU-bench 零售場(chǎng)景中,僅用 1M 上下文窗口 + 40K 思維預(yù)算,就超越了 Gemini 2.5 Pro —— 真是驚艷!”
圖片
小編這里科普一下,這里 TAU-bench retail 測(cè)試,其實(shí)是一個(gè)企業(yè) Agent 的能力測(cè)試,它讓大模型完成一個(gè)“企業(yè)智能助理”或“客戶服務(wù)智能代理”在零售場(chǎng)景下的真實(shí)任務(wù),比如:
- 分析庫(kù)存和銷售數(shù)據(jù)
- 查找和調(diào)用特定工具(比如退貨系統(tǒng)、訂單查詢、商品比價(jià) API)
- 理解復(fù)雜政策和規(guī)則文檔(如退換貨、會(huì)員積分、商品上下架)
- 制定合理的下一步行動(dòng)(比如建議補(bǔ)貨、替代商品、發(fā)優(yōu)惠券)
既然都說(shuō)到這里了,小編忍不住想實(shí)際動(dòng)手測(cè)一測(cè)。Agent 能力測(cè)試題如下:
復(fù)制
你是一名智能客服代理,負(fù)責(zé)處理零售用戶的退貨請(qǐng)求。你可以使用以下工具來(lái)完成任務(wù):
【你可以使用的工具】
1. 查詢訂單狀態(tài):`get_order_info(order_id)` → 返回下單時(shí)間、狀態(tài)、商品信息、用戶ID
2. 查詢用戶積分:`get_user_points(user_id)` → 返回當(dāng)前積分余額
3. 申請(qǐng)退款:`create_refund(order_id, amount)` → 向用戶發(fā)起退款流程
4. 發(fā)放積分:`grant_points(user_id, amount)` → 給用戶發(fā)放積分
【退貨政策文檔】
- 所有商品支持15天無(wú)理由退貨。
- 超過15天需用戶提供合理理由并經(jīng)人工審核。
- 特殊情況可發(fā)放最高不超過20元等值積分補(bǔ)償。
- 咖啡機(jī)類產(chǎn)品需保留原包裝和配件,狀態(tài)良好。
【任務(wù)目標(biāo)】
請(qǐng)?zhí)幚碛脩舻耐素浾?qǐng)求,合理使用工具,做出符合政策的判斷,并以自然、溫和的語(yǔ)氣生成一段客服回復(fù)。
【用戶輸入】
Hi,我想退掉我上個(gè)月買的咖啡機(jī)(訂單號(hào):#8492035),但是系統(tǒng)說(shuō)退貨時(shí)間已過。我剛生完孩子,沒時(shí)間處理。請(qǐng)你幫我看能不能特殊處理一下,或者給點(diǎn)補(bǔ)償?
請(qǐng)按以下格式輸出:
1. 使用了哪些工具?輸入與輸出是什么?
2. 你的判斷邏輯是什么?
3. 最終給用戶的客服回復(fù)是什么?
問 M1、Gemini2.5 Pro、DeepSeek R1 這三款同樣的問題。來(lái)看下 表現(xiàn)。
先說(shuō)結(jié)果:三款模型的回答可以說(shuō)都挺準(zhǔn)確。但差距在于:
一、思考過程和速度上。
DeepSeek 明顯是思考過程最長(zhǎng)最多的,光思考就占了一分半鐘。
圖片
M1 思考過程相當(dāng) 37.8s,與 Gemini 2.5 Pro 時(shí)長(zhǎng)相當(dāng)(后者只能自己計(jì)時(shí),從思考的token長(zhǎng)度上看是相當(dāng)?shù)摹#?nbsp;
圖片
二,輸出答案質(zhì)量上。三者都答對(duì)了。
但是,不得不承認(rèn),Gemini 生成的結(jié)果更為讓讀者賞心悅目一些,只能說(shuō)領(lǐng)先模型對(duì)于生成結(jié)果的細(xì)致包裝程度還是值得學(xué)習(xí)的。
M1 答案如下:
圖片
下面是Gemini 2.5 Pro預(yù)覽版的輸出效果——
圖片
然后是 DeepSeek-R1 的答案,給出答案中的判斷邏輯和 Gemini 2.5 Pro比較類似。
圖片
圖片
可以說(shuō)Agent調(diào)用能力方面,Minimax M1 的優(yōu)勢(shì)在于思索很快,答案精簡(jiǎn)一些。Gemini 2.5 Pro 和 DeepSeek R1 可以說(shuō)不相上下,但后者輸入速度更慢一些。
怎么看呢?真要是用在生產(chǎn)環(huán)境中,在答案都對(duì)的情況下:誰(shuí)最省 token 誰(shuí)是最合適的解~
還有歪果仁驚嘆 M1 的 LiveCode 能力的。小編沒有測(cè)試哈,如果各位測(cè)好了可以評(píng)論區(qū)反饋一下。
圖片
不過小編,倒是測(cè)了一個(gè)“抓娃娃”的小游戲。雖然豐富性上差一些,可玩性上倒是超過了 Gemini 2.5 Pro。
M1 的效果如下:簡(jiǎn)單到只有個(gè)娃娃,但說(shuō)抓就抓到。
圖片
而 Gemini 2.5 生成畫面更為精致,生成的畫面也更為逼真,但是小編發(fā)現(xiàn),真的是一次都沒抓到過娃娃。難道是 Gemini 更懂得“抓娃娃”的商業(yè)邏輯~
圖片
最后,還有一個(gè) one more thing,這一周 MiniMax 也打算來(lái)個(gè)開源周。看網(wǎng)友們呼聲最高的還是:音視頻模型的開源。靜待深夜的炸彈吧!
圖片
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭