本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-6-17 15:09

瀏覽

0收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

大模型的內(nèi)卷遠(yuǎn)遠(yuǎn)沒有結(jié)束了。今天凌晨，MiniMax 扔出了一記重磅炸彈——MiniMax-M1。

先來(lái)看看，M1 有多猛？

上下文長(zhǎng)度 100 萬(wàn) tokens（這里指的輸入，達(dá)到全球最高水平），秒殺 DeepSeek R1 的 8 倍；
激活參數(shù) 45.9 億/次，精度不打折；
計(jì)算效率較 DeepSeek 提升 4 倍，生成 10 萬(wàn)token只用后者 1/4 的算力；
思維預(yù)算最高 80K，真正的「長(zhǎng)考型」AI；
全面超越 Qwen3-235B、DeepSeek-R1，尤其擅長(zhǎng)復(fù)雜編程、工具使用與長(zhǎng)文本理解。

如果數(shù)字看著頭疼，可以看下省流版：

一、長(zhǎng)推理能力：實(shí)現(xiàn)具有實(shí)際生產(chǎn)力的代碼任務(wù)，并具備競(jìng)賽級(jí)的數(shù)學(xué)解題能力。

二、強(qiáng)工具調(diào)用能力：穩(wěn)定處理包含長(zhǎng)鏈路思考與工具調(diào)用的復(fù)雜任務(wù)，是Agent時(shí)代的優(yōu)秀基座模型。

三、百萬(wàn)token長(zhǎng)上文支持：提供卓越的海量信息檢索與分析能力，在超長(zhǎng)多輪對(duì)話中保持強(qiáng)大記憶力。

“省省流”版本，面向三個(gè)場(chǎng)景：生產(chǎn)級(jí)別環(huán)境、Agent工具調(diào)用、超長(zhǎng)上下文的復(fù)雜任務(wù)。

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū)

多項(xiàng)指標(biāo)屠榜，超越 DeepSeek R1

MiniMax-M1，這次除了兩個(gè)版本，即，輸出 token 方面分別對(duì)應(yīng) 40K 和 80K 的“思維預(yù)算（thinking budget）”。

在 Minimax 在 Gihub 上放出的技術(shù)報(bào)告中顯示——

標(biāo)準(zhǔn)評(píng)估基準(zhǔn)方面，MiniMax-M1 顯著優(yōu)于當(dāng)前主流開源大模型，如 DeepSeek-R1 和 Qwen3-235B，特別是在復(fù)雜軟件工程、工具使用、長(zhǎng)上下文處理等任務(wù)中表現(xiàn)突出。

下圖是核心的基準(zhǔn)表現(xiàn)，比如擴(kuò)展思維能力、數(shù)學(xué)、編程、推理與知識(shí)、軟件工程、長(zhǎng)上下文、工具調(diào)用智能體、事實(shí)問答、通用助手任務(wù)等。（下表為 80K 與 40K 版本對(duì)比，其他模型包括 Qwen3、DeepSeek、Claude、Gemini、OpenAI 等）：

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

為了便于大家查看，這里特別制作了一組核心對(duì)比。

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

從上圖可以看到，MiniMax-M1 尤其在長(zhǎng)文本理解、軟件工程與多工具使用方面有明顯領(lǐng)先。

如何做到的？技術(shù)亮點(diǎn)一覽

省流版：

1.Hybrid-MoE 架構(gòu) + Lightning Attention：少激活，大聰明，既節(jié)省算力又保證推理力。

2.大規(guī)模 RL 訓(xùn)練 + 自研 CISPO 強(qiáng)化學(xué)習(xí)算法：不是靠刷網(wǎng)頁(yè)堆語(yǔ)料，而是真刀真槍去練“腦力”。

MiniMax-Text-01 擁有 4560 億參數(shù)，每個(gè) token 激活參數(shù)為 45.9 億。延續(xù)其設(shè)計(jì)理念，M1 模型原生支持長(zhǎng)達(dá) 100 萬(wàn)個(gè) token 的上下文長(zhǎng)度，是 DeepSeek R1 的 8 倍。

此外，得益于 lightning attention 機(jī)制，M1 在推理時(shí)大幅降低計(jì)算開銷——例如在生成長(zhǎng)度為 10 萬(wàn) token 的任務(wù)中，M1 所需的計(jì)算量?jī)H為 DeepSeek R1 的 25%。

這使得 M1 特別適用于需要處理超長(zhǎng)輸入、進(jìn)行深度思考的復(fù)雜任務(wù)。

那么，為什么 M1 用更少的參數(shù)量 456B就做到了超越 DeepSeek R1 的水平？究竟怎么訓(xùn)練的呢？

官方介紹到，M1 通過大規(guī)模強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練，覆蓋從傳統(tǒng)數(shù)學(xué)推理到基于沙盒環(huán)境的真實(shí)世界軟件工程等多種任務(wù)。為此，Minimax 團(tuán)隊(duì)開發(fā)了一套高效的 RL 擴(kuò)展框架，亮點(diǎn)包括：

CISPO 算法：提出了一種新穎的策略——不裁剪 token 更新，而是裁剪重要性采樣權(quán)重，在多種 RL 變體中表現(xiàn)更優(yōu)；
混合注意力設(shè)計(jì)：天然增強(qiáng) RL 訓(xùn)練效率，并解決了混合架構(gòu)在擴(kuò)展過程中的一系列獨(dú)特挑戰(zhàn)。

此外，MiniMax-M1 開放了：

HuggingFace 權(quán)重下載（40K / 80K 兩種版本）
vLLM 快速部署指南（企業(yè)用，真香）
Transformers 接入文檔
Function Calling（函數(shù)調(diào)用）支持
支持聯(lián)網(wǎng)搜索的 Chatbot / API。
甚至還提供通過 MCP 使用以下能力：視頻生成、圖像生成、語(yǔ)音合成、聲音克隆。

Agent 能力實(shí)測(cè)：推理比DS-R1更快！

登錄 MiniMax 的對(duì)話界面，你就會(huì)發(fā)現(xiàn)相當(dāng)囂張的問候語(yǔ)：

Ask anything！No question too long，no query too complex.（盡管來(lái)問！沒有問題太長(zhǎng)，也沒有提問太復(fù)雜。）

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū)

關(guān)于 M1 的實(shí)測(cè)案例，MiniMax 在官方媒體賬號(hào)上有放出不少。這里小編更關(guān)心的 Agent 場(chǎng)景下的表現(xiàn)。

正如前文所提到的，在 TAU-bench 方面， M1-80k 取得了 62 分的結(jié)果，幾乎是 Qwen-32B 得分的兩倍，同時(shí)也超越了 Deepseek R1 的 53.5 分。

一位 X 網(wǎng)友對(duì)于 M1 在零售場(chǎng)景的表現(xiàn)大為驚嘆：

“在 TAU-bench 零售場(chǎng)景中，僅用 1M 上下文窗口 + 40K 思維預(yù)算，就超越了 Gemini 2.5 Pro —— 真是驚艷！”

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

小編這里科普一下，這里 TAU-bench retail 測(cè)試，其實(shí)是一個(gè)企業(yè) Agent 的能力測(cè)試，它讓大模型完成一個(gè)“企業(yè)智能助理”或“客戶服務(wù)智能代理”在零售場(chǎng)景下的真實(shí)任務(wù)，比如：

分析庫(kù)存和銷售數(shù)據(jù)
查找和調(diào)用特定工具（比如退貨系統(tǒng)、訂單查詢、商品比價(jià) API）
理解復(fù)雜政策和規(guī)則文檔（如退換貨、會(huì)員積分、商品上下架）
制定合理的下一步行動(dòng)（比如建議補(bǔ)貨、替代商品、發(fā)優(yōu)惠券）

既然都說(shuō)到這里了，小編忍不住想實(shí)際動(dòng)手測(cè)一測(cè)。Agent 能力測(cè)試題如下：

復(fù)制

你是一名智能客服代理，負(fù)責(zé)處理零售用戶的退貨請(qǐng)求。你可以使用以下工具來(lái)完成任務(wù)：

【你可以使用的工具】
1. 查詢訂單狀態(tài)：`get_order_info(order_id)` → 返回下單時(shí)間、狀態(tài)、商品信息、用戶ID
2. 查詢用戶積分：`get_user_points(user_id)` → 返回當(dāng)前積分余額
3. 申請(qǐng)退款：`create_refund(order_id, amount)` → 向用戶發(fā)起退款流程
4. 發(fā)放積分：`grant_points(user_id, amount)` → 給用戶發(fā)放積分

【退貨政策文檔】
- 所有商品支持15天無(wú)理由退貨。
- 超過15天需用戶提供合理理由并經(jīng)人工審核。
- 特殊情況可發(fā)放最高不超過20元等值積分補(bǔ)償。
- 咖啡機(jī)類產(chǎn)品需保留原包裝和配件，狀態(tài)良好。

【任務(wù)目標(biāo)】
請(qǐng)?zhí)幚碛脩舻耐素浾?qǐng)求，合理使用工具，做出符合政策的判斷，并以自然、溫和的語(yǔ)氣生成一段客服回復(fù)。

【用戶輸入】
Hi，我想退掉我上個(gè)月買的咖啡機(jī)（訂單號(hào)：#8492035），但是系統(tǒng)說(shuō)退貨時(shí)間已過。我剛生完孩子，沒時(shí)間處理。請(qǐng)你幫我看能不能特殊處理一下，或者給點(diǎn)補(bǔ)償？

請(qǐng)按以下格式輸出：
1. 使用了哪些工具？輸入與輸出是什么？
2. 你的判斷邏輯是什么？
3. 最終給用戶的客服回復(fù)是什么？

問 M1、Gemini2.5 Pro、DeepSeek R1 這三款同樣的問題。來(lái)看下表現(xiàn)。

先說(shuō)結(jié)果：三款模型的回答可以說(shuō)都挺準(zhǔn)確。但差距在于：

一、思考過程和速度上。

DeepSeek 明顯是思考過程最長(zhǎng)最多的，光思考就占了一分半鐘。

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

M1 思考過程相當(dāng) 37.8s，與 Gemini 2.5 Pro 時(shí)長(zhǎng)相當(dāng)（后者只能自己計(jì)時(shí)，從思考的token長(zhǎng)度上看是相當(dāng)?shù)摹＃?nbsp;

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

二，輸出答案質(zhì)量上。三者都答對(duì)了。

但是，不得不承認(rèn)，Gemini 生成的結(jié)果更為讓讀者賞心悅目一些，只能說(shuō)領(lǐng)先模型對(duì)于生成結(jié)果的細(xì)致包裝程度還是值得學(xué)習(xí)的。

M1 答案如下：

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū)

下面是Gemini 2.5 Pro預(yù)覽版的輸出效果——

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū)

然后是 DeepSeek-R1 的答案，給出答案中的判斷邏輯和 Gemini 2.5 Pro比較類似。

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

可以說(shuō)Agent調(diào)用能力方面，Minimax M1 的優(yōu)勢(shì)在于思索很快，答案精簡(jiǎn)一些。Gemini 2.5 Pro 和 DeepSeek R1 可以說(shuō)不相上下，但后者輸入速度更慢一些。

怎么看呢？真要是用在生產(chǎn)環(huán)境中，在答案都對(duì)的情況下：誰(shuí)最省 token 誰(shuí)是最合適的解~

還有歪果仁驚嘆 M1 的 LiveCode 能力的。小編沒有測(cè)試哈，如果各位測(cè)好了可以評(píng)論區(qū)反饋一下。

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

不過小編，倒是測(cè)了一個(gè)“抓娃娃”的小游戲。雖然豐富性上差一些，可玩性上倒是超過了 Gemini 2.5 Pro。

M1 的效果如下：簡(jiǎn)單到只有個(gè)娃娃，但說(shuō)抓就抓到。

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

而 Gemini 2.5 生成畫面更為精致，生成的畫面也更為逼真，但是小編發(fā)現(xiàn)，真的是一次都沒抓到過娃娃。難道是 Gemini 更懂得“抓娃娃”的商業(yè)邏輯~

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

最后，還有一個(gè) one more thing，這一周 MiniMax 也打算來(lái)個(gè)開源周。看網(wǎng)友們呼聲最高的還是：音視頻模型的開源。靜待深夜的炸彈吧！

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！-AI.x社區(qū) 圖片

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：云昭

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

MiniMax M1

Gemini

DeepSeek

贊

回復(fù)

舉報(bào)

社區(qū)頭條

熱門內(nèi)容榜 ? 最近上榜

1條回復(fù)

按時(shí)間正序

按時(shí)間倒序

wx68426ac5b5c8a

回復(fù)

2025-6-17 17:44:40

回復(fù)

相關(guān)推薦

什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？

AI探索時(shí)代 ? 6279瀏覽 ? 0回復(fù)
阿里新開源語(yǔ)音模型Qwen2-Audio ，實(shí)測(cè)優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步

51CTO技術(shù)棧 ? 3242瀏覽 ? 0回復(fù)
OpenAI草莓o1深夜炸場(chǎng)，一眾大佬博主熬夜實(shí)測(cè)：有坑，很難說(shuō)

51CTO技術(shù)棧 ? 3338瀏覽 ? 0回復(fù)
測(cè)測(cè)Kimi新開的k0-math，你是數(shù)學(xué)模型，但我就測(cè)文本

NLP工作站 ? 2293瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯(cuò)，實(shí)測(cè)數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 3037瀏覽 ? 0回復(fù)
僅用5M數(shù)據(jù)超過 OpenAI？快手最新 Code Embedding 模型 OASIS(綠洲)發(fā)布

51CTO技術(shù)棧 ? 2133瀏覽 ? 0回復(fù)
實(shí)測(cè)來(lái)了！Kimi發(fā)布k1視覺思考模型，實(shí)力顛覆K12教育賽道，涌現(xiàn)能力強(qiáng)得可怕，免費(fèi)可用！網(wǎng)友：國(guó)產(chǎn)之光！

51CTO技術(shù)棧 ? 3618瀏覽 ? 0回復(fù)
Kimi思考模型k1.5是怎么練成的？細(xì)節(jié)曝光

PaperAgent ? 3441瀏覽 ? 0回復(fù)
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研習(xí)社 ? 2311瀏覽 ? 0回復(fù)
谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！

老蛀蟲 ? 2680瀏覽 ? 0回復(fù)
外國(guó)專家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)！

51CTO技術(shù)棧 ? 1898瀏覽 ? 0回復(fù)
騰訊文檔也能用上DeepSeek R1滿血版了！騰訊已漲超7.5%！實(shí)測(cè)：絲滑生成哪吒3預(yù)測(cè)PPT

51CTO技術(shù)棧 ? 3886瀏覽 ? 0回復(fù)
高分辨率3D人生成超簡(jiǎn)單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 2711瀏覽 ? 0回復(fù)
Agentic Chunking拯救語(yǔ)義斷裂，實(shí)測(cè)RAG準(zhǔn)確率飆升40%，LLM開發(fā)者必看！

AI博物院 ? 3391瀏覽 ? 0回復(fù)
o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！

51CTO技術(shù)棧 ? 3010瀏覽 ? 1回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器

穿越時(shí)空111 ? 2545瀏覽 ? 0回復(fù)
直播G1長(zhǎng)跑操場(chǎng)40圈，6萬(wàn)人點(diǎn)贊！真實(shí)跑步水平曝光：2m/s接近天工！

51CTO技術(shù)棧 ? 1765瀏覽 ? 0回復(fù)
實(shí)測(cè)百萬(wàn)token上下文模型MiniMax-M1：RAG真的要被淘汰了？

云中江樹 ? 563瀏覽 ? 0回復(fù)
MiniMax-M1：開源AI的新標(biāo)桿，長(zhǎng)文本推理與多模態(tài)輸入的完美結(jié)合！

Halo咯咯 ? 587瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂