成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS! 原創(chuàng)

發(fā)布于 2025-6-17 15:09
瀏覽
0收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

大模型的內(nèi)卷遠(yuǎn)遠(yuǎn)沒有結(jié)束了。今天凌晨,MiniMax 扔出了一記重磅炸彈——MiniMax-M1。

先來(lái)看看,M1 有多猛?

  • 上下文長(zhǎng)度 100 萬(wàn) tokens(這里指的輸入,達(dá)到全球最高水平),秒殺 DeepSeek R1 的 8 倍;
  • 激活參數(shù) 45.9 億/次,精度不打折;
  • 計(jì)算效率較 DeepSeek 提升 4 倍,生成 10 萬(wàn)token只用后者 1/4 的算力;
  • 思維預(yù)算最高 80K,真正的「長(zhǎng)考型」AI;
  • 全面超越 Qwen3-235B、DeepSeek-R1,尤其擅長(zhǎng)復(fù)雜編程、工具使用與長(zhǎng)文本理解。

如果數(shù)字看著頭疼,可以看下省流版:

一、長(zhǎng)推理能力:實(shí)現(xiàn)具有實(shí)際生產(chǎn)力的代碼任務(wù),并具備競(jìng)賽級(jí)的數(shù)學(xué)解題能力。

二、強(qiáng)工具調(diào)用能力:穩(wěn)定處理包含長(zhǎng)鏈路思考與工具調(diào)用的復(fù)雜任務(wù),是Agent時(shí)代的優(yōu)秀基座模型。

三、百萬(wàn)token長(zhǎng)上文支持:提供卓越的海量信息檢索與分析能力,在超長(zhǎng)多輪對(duì)話中保持強(qiáng)大記憶力。

“省省流”版本,面向三個(gè)場(chǎng)景:生產(chǎn)級(jí)別環(huán)境、Agent工具調(diào)用、超長(zhǎng)上下文的復(fù)雜任務(wù)。

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)

多項(xiàng)指標(biāo)屠榜,超越 DeepSeek R1

MiniMax-M1,這次除了兩個(gè)版本,即,輸出 token 方面分別對(duì)應(yīng) 40K 和 80K 的“思維預(yù)算(thinking budget)”。

在 Minimax 在 Gihub 上放出的技術(shù)報(bào)告中顯示——

標(biāo)準(zhǔn)評(píng)估基準(zhǔn)方面,MiniMax-M1 顯著優(yōu)于當(dāng)前主流開源大模型,如 DeepSeek-R1 和 Qwen3-235B,特別是在復(fù)雜軟件工程、工具使用、長(zhǎng)上下文處理等任務(wù)中表現(xiàn)突出。

下圖是核心的基準(zhǔn)表現(xiàn),比如擴(kuò)展思維能力、數(shù)學(xué)、編程、推理與知識(shí)、軟件工程、長(zhǎng)上下文、工具調(diào)用智能體、事實(shí)問答、通用助手任務(wù)等。(下表為 80K 與 40K 版本對(duì)比,其他模型包括 Qwen3、DeepSeek、Claude、Gemini、OpenAI 等):

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

為了便于大家查看,這里特別制作了一組核心對(duì)比。

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

從上圖可以看到,MiniMax-M1 尤其在長(zhǎng)文本理解、軟件工程與多工具使用方面有明顯領(lǐng)先。

如何做到的?技術(shù)亮點(diǎn)一覽

省流版:

1.Hybrid-MoE 架構(gòu) + Lightning Attention:少激活,大聰明,既節(jié)省算力又保證推理力。

2.大規(guī)模 RL 訓(xùn)練 + 自研 CISPO 強(qiáng)化學(xué)習(xí)算法:不是靠刷網(wǎng)頁(yè)堆語(yǔ)料,而是真刀真槍去練“腦力”。

MiniMax-Text-01 擁有 4560 億參數(shù),每個(gè) token 激活參數(shù)為 45.9 億。延續(xù)其設(shè)計(jì)理念,M1 模型原生支持長(zhǎng)達(dá) 100 萬(wàn)個(gè) token 的上下文長(zhǎng)度,是 DeepSeek R1 的 8 倍。

此外,得益于 lightning attention 機(jī)制,M1 在推理時(shí)大幅降低計(jì)算開銷——例如在生成長(zhǎng)度為 10 萬(wàn) token 的任務(wù)中,M1 所需的計(jì)算量?jī)H為 DeepSeek R1 的 25%。

這使得 M1 特別適用于需要處理超長(zhǎng)輸入、進(jìn)行深度思考的復(fù)雜任務(wù)。

那么,為什么 M1 用更少的參數(shù)量 456B就做到了超越 DeepSeek R1 的水平?究竟怎么訓(xùn)練的呢? 

官方介紹到,M1 通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,覆蓋從傳統(tǒng)數(shù)學(xué)推理到基于沙盒環(huán)境的真實(shí)世界軟件工程等多種任務(wù)。為此,Minimax 團(tuán)隊(duì)開發(fā)了一套高效的 RL 擴(kuò)展框架,亮點(diǎn)包括:

  1. CISPO 算法:提出了一種新穎的策略——不裁剪 token 更新,而是裁剪重要性采樣權(quán)重,在多種 RL 變體中表現(xiàn)更優(yōu);
  2. 混合注意力設(shè)計(jì):天然增強(qiáng) RL 訓(xùn)練效率,并解決了混合架構(gòu)在擴(kuò)展過程中的一系列獨(dú)特挑戰(zhàn)。

此外,MiniMax-M1 開放了:

  • HuggingFace 權(quán)重下載(40K / 80K 兩種版本)
  • vLLM 快速部署指南(企業(yè)用,真香)
  • Transformers 接入文檔
  • Function Calling(函數(shù)調(diào)用)支持
  • 支持聯(lián)網(wǎng)搜索的 Chatbot / API。
  • 甚至還提供通過 MCP 使用以下能力:視頻生成、圖像生成、語(yǔ)音合成、聲音克隆。

Agent 能力實(shí)測(cè):推理比DS-R1更快!

登錄 MiniMax 的對(duì)話界面,你就會(huì)發(fā)現(xiàn)相當(dāng)囂張的問候語(yǔ):

Ask anything!No question too long,no query too complex.(盡管來(lái)問!沒有問題太長(zhǎng),也沒有提問太復(fù)雜。)

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)

關(guān)于 M1 的實(shí)測(cè)案例,MiniMax 在官方媒體賬號(hào)上有放出不少。這里小編更關(guān)心的 Agent 場(chǎng)景下的表現(xiàn)。

正如前文所提到的,在 TAU-bench 方面, M1-80k 取得了 62 分的結(jié)果,幾乎是 Qwen-32B 得分的兩倍,同時(shí)也超越了 Deepseek R1 的 53.5 分。

一位 X 網(wǎng)友對(duì)于 M1 在零售場(chǎng)景的表現(xiàn)大為驚嘆:

“在 TAU-bench 零售場(chǎng)景中,僅用 1M 上下文窗口 + 40K 思維預(yù)算,就超越了 Gemini 2.5 Pro —— 真是驚艷!”

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

小編這里科普一下,這里 TAU-bench retail 測(cè)試,其實(shí)是一個(gè)企業(yè) Agent 的能力測(cè)試,它讓大模型完成一個(gè)“企業(yè)智能助理”或“客戶服務(wù)智能代理”在零售場(chǎng)景下的真實(shí)任務(wù),比如:

  • 分析庫(kù)存和銷售數(shù)據(jù)
  • 查找和調(diào)用特定工具(比如退貨系統(tǒng)、訂單查詢、商品比價(jià) API)
  • 理解復(fù)雜政策和規(guī)則文檔(如退換貨、會(huì)員積分、商品上下架)
  • 制定合理的下一步行動(dòng)(比如建議補(bǔ)貨、替代商品、發(fā)優(yōu)惠券)

既然都說(shuō)到這里了,小編忍不住想實(shí)際動(dòng)手測(cè)一測(cè)。Agent 能力測(cè)試題如下:

復(fù)制

你是一名智能客服代理,負(fù)責(zé)處理零售用戶的退貨請(qǐng)求。你可以使用以下工具來(lái)完成任務(wù):

【你可以使用的工具】
1. 查詢訂單狀態(tài):`get_order_info(order_id)` → 返回下單時(shí)間、狀態(tài)、商品信息、用戶ID
2. 查詢用戶積分:`get_user_points(user_id)` → 返回當(dāng)前積分余額
3. 申請(qǐng)退款:`create_refund(order_id, amount)` → 向用戶發(fā)起退款流程
4. 發(fā)放積分:`grant_points(user_id, amount)` → 給用戶發(fā)放積分

【退貨政策文檔】
- 所有商品支持15天無(wú)理由退貨。
- 超過15天需用戶提供合理理由并經(jīng)人工審核。
- 特殊情況可發(fā)放最高不超過20元等值積分補(bǔ)償。
- 咖啡機(jī)類產(chǎn)品需保留原包裝和配件,狀態(tài)良好。

【任務(wù)目標(biāo)】
請(qǐng)?zhí)幚碛脩舻耐素浾?qǐng)求,合理使用工具,做出符合政策的判斷,并以自然、溫和的語(yǔ)氣生成一段客服回復(fù)。

【用戶輸入】
Hi,我想退掉我上個(gè)月買的咖啡機(jī)(訂單號(hào):#8492035),但是系統(tǒng)說(shuō)退貨時(shí)間已過。我剛生完孩子,沒時(shí)間處理。請(qǐng)你幫我看能不能特殊處理一下,或者給點(diǎn)補(bǔ)償?

請(qǐng)按以下格式輸出:
1. 使用了哪些工具?輸入與輸出是什么?
2. 你的判斷邏輯是什么?
3. 最終給用戶的客服回復(fù)是什么?

問 M1、Gemini2.5 Pro、DeepSeek R1 這三款同樣的問題。來(lái)看下 表現(xiàn)。

先說(shuō)結(jié)果:三款模型的回答可以說(shuō)都挺準(zhǔn)確。但差距在于:

一、思考過程和速度上。

DeepSeek 明顯是思考過程最長(zhǎng)最多的,光思考就占了一分半鐘。

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

M1 思考過程相當(dāng) 37.8s,與 Gemini 2.5 Pro 時(shí)長(zhǎng)相當(dāng)(后者只能自己計(jì)時(shí),從思考的token長(zhǎng)度上看是相當(dāng)?shù)摹#?nbsp;

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

二,輸出答案質(zhì)量上。三者都答對(duì)了。

但是,不得不承認(rèn),Gemini 生成的結(jié)果更為讓讀者賞心悅目一些,只能說(shuō)領(lǐng)先模型對(duì)于生成結(jié)果的細(xì)致包裝程度還是值得學(xué)習(xí)的。

M1 答案如下:

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)

下面是Gemini 2.5 Pro預(yù)覽版的輸出效果——

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)

然后是 DeepSeek-R1 的答案,給出答案中的判斷邏輯和 Gemini 2.5 Pro比較類似。

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

可以說(shuō)Agent調(diào)用能力方面,Minimax M1 的優(yōu)勢(shì)在于思索很快,答案精簡(jiǎn)一些。Gemini 2.5 Pro 和 DeepSeek R1 可以說(shuō)不相上下,但后者輸入速度更慢一些。

怎么看呢?真要是用在生產(chǎn)環(huán)境中,在答案都對(duì)的情況下:誰(shuí)最省 token 誰(shuí)是最合適的解~

還有歪果仁驚嘆 M1 的 LiveCode 能力的。小編沒有測(cè)試哈,如果各位測(cè)好了可以評(píng)論區(qū)反饋一下。

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

不過小編,倒是測(cè)了一個(gè)“抓娃娃”的小游戲。雖然豐富性上差一些,可玩性上倒是超過了 Gemini 2.5 Pro。

M1 的效果如下:簡(jiǎn)單到只有個(gè)娃娃,但說(shuō)抓就抓到。

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

而 Gemini 2.5 生成畫面更為精致,生成的畫面也更為逼真,但是小編發(fā)現(xiàn),真的是一次都沒抓到過娃娃。難道是 Gemini 更懂得“抓娃娃”的商業(yè)邏輯~

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

最后,還有一個(gè) one more thing,這一周 MiniMax 也打算來(lái)個(gè)開源周。看網(wǎng)友們呼聲最高的還是:音視頻模型的開源。靜待深夜的炸彈吧!

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

本命周!MiniMax M1有多猛?網(wǎng)友:僅用40k思考預(yù)算就干翻Gemini,實(shí)測(cè):真·超DS!-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
1條回復(fù)
按時(shí)間正序
/
按時(shí)間倒序
wx68426ac5b5c8a
wx68426ac5b5c8a

回復(fù)
2025-6-17 17:44:40
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美一区二区在线观看 | 91av入口| 精品视频在线观看 | 国产精品亚洲视频 | 国产在线观看免费 | 免费一级做a爰片久久毛片潮喷 | 日韩精品视频一区二区三区 | 午夜影院在线观看 | 色橹橹欧美在线观看视频高清 | 国产精品久久视频 | 日本三级全黄三级a | 国产精品亚洲一区 | 大象一区| 日本久久综合网 | 久久亚| 欧美一级片黄色 | 久久国产精品99久久久大便 | 91久久精品 | 欧美极品视频在线观看 | 国产视频一区二区 | 91精品国产综合久久久久久首页 | 亚洲视频一区 | 欧美精品乱码99久久影院 | 欧美性极品xxxx做受 | 91新视频 | 久久久久久久久99精品 | 国产aa | 男女视频在线免费观看 | 91欧美精品成人综合在线观看 | 成人国产一区二区三区精品麻豆 | 国产美女黄色片 | h片在线看 | 亚洲第1页 | 国内精品成人 | 国产精品精品视频一区二区三区 | 黑人巨大精品欧美黑白配亚洲 | 在线观看视频中文字幕 | 欧美性受xxx | 亚洲福利 | 在线免费91| 国产一级片一区二区 |