MiniMax-M1:開源AI的新標桿,長文本推理與多模態輸入的完美結合! 原創 精華
在人工智能的世界里,每一次技術的突破都可能引發一場新的變革。今天,我們要聊的主角是一個人工智能公司MiniMaxAI,它剛剛推出了一款大規模開源推理模型——MiniMax-M1。這款模型不僅在技術上取得了重大突破,更在開源領域樹立了新的標桿。接下來,就讓我們一起深入了解MiniMax-M1的亮點,以及它背后的MiniMax Agent,看看它們究竟有多厲害!
一、MiniMax-M1:開源大模型的新標桿
(一)什么是MiniMax-M1?
MiniMax-M1是由上海的人工智能初創公司MiniMax開發的一款開源、大規模、混合注意力推理模型。它不僅具備網頁搜索功能,還能處理文本、圖像、演示文稿等多種格式的多模態輸入。這個模型采用了專家混合(MoE)架構,訓練參數高達4560億,每次激活約459億參數。更重要的是,它完全開源,采用Apache 2.0許可證,這意味著任何人都可以自由使用和改進它。
(二)MiniMax-M1的“黑科技”
MiniMax為M1模型引入了“閃電注意力”技術,大幅降低了推理成本。與DeepSeek-R1相比,在生成10萬token時,MiniMax-M1僅需25%的浮點運算量。此外,它采用大規模強化學習(CISPO)進行訓練,僅在512塊A800 GPU上訓練3周,成本約為53.47萬美元。相比之下,OpenAI和谷歌等競爭對手的訓練成本高達數百萬美元,MiniMax-M1的性價比簡直逆天!
(三)MiniMax-M1的關鍵特性
- 混合注意力 + MoE效率:M1結合了MoE架構和閃電注意力技術,計算成本比大多數模型低75%。
- 超大上下文窗口:M1的最大亮點是其100萬輸入token和8萬輸出token的超大上下文窗口,與谷歌的Gemini 2.5 Pro不相上下。
- 多種版本可選:MiniMax提供M1-40k(中級)和M1-80k(高級)兩個版本,80k版本在擴展推理和復雜任務上表現更佳。
- 擴展推理和長文本處理能力:在長文本基準測試(OpenAI-MRCR、LongBench-v2)和代理工具使用(TAU-bench)中,MiniMax-M1表現出色。
(四)MiniMax-M1的性能表現
在多個基準測試中,MiniMax-M1的表現令人矚目:
- AIME 2024:MiniMax-M1以86.0%的最高分超越了所有專有模型,包括OpenAI o3、Claude 4 Opus和Gemini 2.5 Pro。
- LiveCodeBench:在編程基準測試中,MiniMax-M1得分65.0%,僅次于OpenAI o3和Gemini。
- SWE-bench Verified:在軟件工程基準測試中,MiniMax-M1得分56.0%,大幅領先DeepSeek-R1和Qwen3。
- TAU-bench:在代理工具使用測試中,MiniMax-M1得分62.8%,超越DeepSeek和Qwen3。
- MRCR:在多輪文檔分析和長文本推理測試中,MiniMax-M1得分73.4%,接近頂級商業模型,遠超其他開源模型。
二、如何使用MiniMax-M1?
MiniMax-M1完全開源,代碼可在GitHub和Hugging Face上找到。你也可以直接通過其聊天界面使用它:MiniMax AI - Your Ultimate AI Assistant for Intelligent Solutions。此外,MiniMax API提供了結構化的函數調用接口和其他聊天機器人API,還支持搜索、圖像/視頻生成、語音合成和語音克隆等功能,非常適合代理工作流。
三、MiniMax-M1實測:能做什么?
接下來,我們通過幾個實際任務來測試MiniMax-M1的能力。
(一)任務1:動畫模擬
提示:“生成一個紅色五邊形在黑色六邊形內順時針旋轉的模擬。五邊形內有兩個球,一個藍色,一個黃色,它們會根據物理定律在墻上反彈。每次球碰到邊緣時,顏色會改變;每次它們相互碰撞時,顏色會變成兩者的混合色。”
輸出: MiniMax-M1在大約10分鐘內生成了清晰高效的代碼,并附上了詳細的解釋。模擬效果視覺清晰,物理準確,完全符合提示要求。不過,球有時會卡在邊緣,甚至最終被彈出模擬區域,這可能是代碼中的一個小錯誤。但總體來說,結果令人滿意!
(二)任務2:實時網絡搜索
提示:“本周在古爾岡有哪些脫口秀表演?”
輸出: MiniMax-M1幾乎立即搜索了30多個網站,包括District、All Events,甚至Facebook和Instagram上的活動列表。它收集了所有信息,并列出了本周所有脫口秀活動。雖然它沒有讀取或檢測到活動的具體時間和地點,但它在右側列出了所有來源網站,方便用戶直接訪問預訂頁面。
(三)任務3:邏輯謎題
提示:“四個人在晚上過橋,只有一支能持續15分鐘的火炬。Alice過橋需要1分鐘,Ben需要2分鐘,Cindy需要5分鐘,Don需要8分鐘。每次最多兩人過橋,且以較慢者的速度為準。他們如何在15分鐘內全部過橋?”
輸出: MiniMax-M1在大約2分鐘內(精確地說是125.2秒)給出了答案:
- Alice和Ben一起過橋(2分鐘)。
- Alice獨自返回(1分鐘)。
- Cindy和Don一起過橋(8分鐘)。
- Ben獨自返回(2分鐘)。
- Alice和Ben再次一起過橋(2分鐘)。
總結:MiniMax-M1的邏輯推理過程非常精準,直接給出了正確答案,沒有出現任何回溯。雖然在某些地方思考時間稍長,但整體表現令人印象深刻。
四、MiniMax Agent:AI代理的未來
MiniMax Agent是MiniMax的另一大亮點,目前處于測試階段,但它已經展現出了驚人的能力。我們用一個任務來測試它的能力:
提示:“創建一個互動網站,展示印度的虛擬之旅。網站需要顯示國家地圖,標注各州及其首府。點擊某個州時,會放大顯示該州的著名景點和地標。點擊地標圖標時,會彈出一個側邊欄,顯示實際圖片、位置、參觀時間和門票價格。用戶可以選擇多個地標,網站會生成一個實際的行程計劃,包括所需天數和基于谷歌地圖的交通時間。”
輸出: MiniMax Agent出色地完成了任務。它不僅找到了信息,添加了文本和圖片,還獲取了API密鑰,訪問了谷歌地圖和其他應用,構建了整個系統,并進行了測試。整個過程僅用了20分鐘,還提供了詳細的文檔和測試結果。
你可以在這里體驗完整的網站:Created by MiniMax Agent。
五、MiniMax-M1:開源AI的新標準
MiniMax-M1的出現,標志著開源AI領域的一次重大飛躍。它不僅是一個混合注意力MoE模型,還結合了規模和計算效率。憑借驚人的100萬token上下文窗口,MiniMax-M1能夠在長文本推理和文檔理解方面表現出色。盡管訓練成本極低,但它在標準基準測試中的表現卻毫不遜色,甚至在某些方面超越了競爭對手。
MiniMax Agent同樣令人印象深刻,它能夠獨立創建演示文稿、網站和應用程序。聊天界面和實時更新功能讓用戶仿佛置身于“即時編碼”的環境中。總的來說,MiniMax-M1為開源模型開發樹立了新的標準,融合了技術復雜性、經濟效率和易用性,為下一代AI聊天機器人和代理奠定了強大的基礎。
本文轉載自???Halo咯咯??? 作者:基咯咯
