編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
大模型的內卷遠遠沒有結束了。今天凌晨,MiniMax 扔出了一記重磅炸彈——MiniMax-M1。
先來看看,M1 有多猛?
- 上下文長度 100 萬 tokens(這里指的輸入,達到全球最高水平),秒殺 DeepSeek R1 的 8 倍;
- 激活參數 45.9 億/次,精度不打折;
- 計算效率較 DeepSeek 提升 4 倍,生成 10 萬token只用后者 1/4 的算力;
- 思維預算最高 80K,真正的「長考型」AI;
- 全面超越 Qwen3-235B、DeepSeek-R1,尤其擅長復雜編程、工具使用與長文本理解。
如果數字看著頭疼,可以看下省流版:
一、長推理能力:實現具有實際生產力的代碼任務,并具備競賽級的數學解題能力。
二、強工具調用能力:穩定處理包含長鏈路思考與工具調用的復雜任務,是Agent時代的優秀基座模型。
三、百萬token長上文支持:提供卓越的海量信息檢索與分析能力,在超長多輪對話中保持強大記憶力。
“省省流”版本,面向三個場景:生產級別環境、Agent工具調用、超長上下文的復雜任務。
多項指標屠榜,超越 DeepSeek R1
MiniMax-M1,這次除了兩個版本,即,輸出 token 方面分別對應 40K 和 80K 的“思維預算(thinking budget)”。
在 Minimax 在 Gihub 上放出的技術報告中顯示——
標準評估基準方面,MiniMax-M1 顯著優于當前主流開源大模型,如 DeepSeek-R1 和 Qwen3-235B,特別是在復雜軟件工程、工具使用、長上下文處理等任務中表現突出。
下圖是核心的基準表現,比如擴展思維能力、數學、編程、推理與知識、軟件工程、長上下文、工具調用智能體、事實問答、通用助手任務等。(下表為 80K 與 40K 版本對比,其他模型包括 Qwen3、DeepSeek、Claude、Gemini、OpenAI 等):
圖片
為了便于大家查看,這里特別制作了一組核心對比。
圖片
從上圖可以看到,MiniMax-M1 尤其在長文本理解、軟件工程與多工具使用方面有明顯領先。
如何做到的?技術亮點一覽
省流版:
1.Hybrid-MoE 架構 + Lightning Attention:少激活,大聰明,既節省算力又保證推理力。
2.大規模 RL 訓練 + 自研 CISPO 強化學習算法:不是靠刷網頁堆語料,而是真刀真槍去練“腦力”。
MiniMax-Text-01 擁有 4560 億參數,每個 token 激活參數為 45.9 億。延續其設計理念,M1 模型原生支持長達 100 萬個 token 的上下文長度,是 DeepSeek R1 的 8 倍。
此外,得益于 lightning attention 機制,M1 在推理時大幅降低計算開銷——例如在生成長度為 10 萬 token 的任務中,M1 所需的計算量僅為 DeepSeek R1 的 25%。
這使得 M1 特別適用于需要處理超長輸入、進行深度思考的復雜任務。
那么,為什么 M1 用更少的參數量 456B就做到了超越 DeepSeek R1 的水平?究竟怎么訓練的呢?
官方介紹到,M1 通過大規模強化學習(RL)訓練,覆蓋從傳統數學推理到基于沙盒環境的真實世界軟件工程等多種任務。為此,Minimax 團隊開發了一套高效的 RL 擴展框架,亮點包括:
- CISPO 算法:提出了一種新穎的策略——不裁剪 token 更新,而是裁剪重要性采樣權重,在多種 RL 變體中表現更優;
- 混合注意力設計:天然增強 RL 訓練效率,并解決了混合架構在擴展過程中的一系列獨特挑戰。
此外,MiniMax-M1 開放了:
- HuggingFace 權重下載(40K / 80K 兩種版本)
- vLLM 快速部署指南(企業用,真香)
- Transformers 接入文檔
- Function Calling(函數調用)支持
- 支持聯網搜索的 Chatbot / API。
- 甚至還提供通過 MCP 使用以下能力:視頻生成、圖像生成、語音合成、聲音克隆。
Agent 能力實測:推理比DS-R1更快!
登錄 MiniMax 的對話界面,你就會發現相當囂張的問候語:
Ask anything!No question too long,no query too complex.(盡管來問!沒有問題太長,也沒有提問太復雜。)
圖片
關于 M1 的實測案例,MiniMax 在官方媒體賬號上有放出不少。這里小編更關心的 Agent 場景下的表現。
正如前文所提到的,在 TAU-bench 方面, M1-80k 取得了 62 分的結果,幾乎是 Qwen-32B 得分的兩倍,同時也超越了 Deepseek R1 的 53.5 分。
一位 X 網友對于 M1 在零售場景的表現大為驚嘆:
“在 TAU-bench 零售場景中,僅用 1M 上下文窗口 + 40K 思維預算,就超越了 Gemini 2.5 Pro —— 真是驚艷!”
圖片
小編這里科普一下,這里 TAU-bench retail 測試,其實是一個企業 Agent 的能力測試,它讓大模型完成一個“企業智能助理”或“客戶服務智能代理”在零售場景下的真實任務,比如:
- 分析庫存和銷售數據
- 查找和調用特定工具(比如退貨系統、訂單查詢、商品比價 API)
- 理解復雜政策和規則文檔(如退換貨、會員積分、商品上下架)
- 制定合理的下一步行動(比如建議補貨、替代商品、發優惠券)
既然都說到這里了,小編忍不住想實際動手測一測。Agent 能力測試題如下:
你是一名智能客服代理,負責處理零售用戶的退貨請求。你可以使用以下工具來完成任務:
【你可以使用的工具】
1. 查詢訂單狀態:`get_order_info(order_id)` → 返回下單時間、狀態、商品信息、用戶ID
2. 查詢用戶積分:`get_user_points(user_id)` → 返回當前積分余額
3. 申請退款:`create_refund(order_id, amount)` → 向用戶發起退款流程
4. 發放積分:`grant_points(user_id, amount)` → 給用戶發放積分
【退貨政策文檔】
- 所有商品支持15天無理由退貨。
- 超過15天需用戶提供合理理由并經人工審核。
- 特殊情況可發放最高不超過20元等值積分補償。
- 咖啡機類產品需保留原包裝和配件,狀態良好。
【任務目標】
請處理用戶的退貨請求,合理使用工具,做出符合政策的判斷,并以自然、溫和的語氣生成一段客服回復。
【用戶輸入】
Hi,我想退掉我上個月買的咖啡機(訂單號:#8492035),但是系統說退貨時間已過。我剛生完孩子,沒時間處理。請你幫我看能不能特殊處理一下,或者給點補償?
請按以下格式輸出:
1. 使用了哪些工具?輸入與輸出是什么?
2. 你的判斷邏輯是什么?
3. 最終給用戶的客服回復是什么?
問 M1、Gemini2.5 Pro、DeepSeek R1 這三款同樣的問題。來看下 表現。
先說結果:三款模型的回答可以說都挺準確。但差距在于:
一、思考過程和速度上。
DeepSeek 明顯是思考過程最長最多的,光思考就占了一分半鐘。
圖片
M1 思考過程相當 37.8s,與 Gemini 2.5 Pro 時長相當(后者只能自己計時,從思考的token長度上看是相當的。)
圖片
二,輸出答案質量上。三者都答對了。
但是,不得不承認,Gemini 生成的結果更為讓讀者賞心悅目一些,只能說領先模型對于生成結果的細致包裝程度還是值得學習的。
M1 答案如下:
圖片
下面是Gemini 2.5 Pro預覽版的輸出效果——
圖片
然后是 DeepSeek-R1 的答案,給出答案中的判斷邏輯和 Gemini 2.5 Pro比較類似。
圖片
圖片
可以說Agent調用能力方面,Minimax M1 的優勢在于思索很快,答案精簡一些。Gemini 2.5 Pro 和 DeepSeek R1 可以說不相上下,但后者輸入速度更慢一些。
怎么看呢?真要是用在生產環境中,在答案都對的情況下:誰最省 token 誰是最合適的解~
還有歪果仁驚嘆 M1 的 LiveCode 能力的。小編沒有測試哈,如果各位測好了可以評論區反饋一下。
圖片
不過小編,倒是測了一個“抓娃娃”的小游戲。雖然豐富性上差一些,可玩性上倒是超過了 Gemini 2.5 Pro。
M1 的效果如下:簡單到只有個娃娃,但說抓就抓到。
圖片
而 Gemini 2.5 生成畫面更為精致,生成的畫面也更為逼真,但是小編發現,真的是一次都沒抓到過娃娃。難道是 Gemini 更懂得“抓娃娃”的商業邏輯~
圖片
最后,還有一個 one more thing,這一周 MiniMax 也打算來個開源周。看網友們呼聲最高的還是:音視頻模型的開源。靜待深夜的炸彈吧!
圖片
圖片