成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Mistral的首個強推理模型:擁抱開源,推理速度快10倍

人工智能 新聞 開源
歐洲人工智能公司 Mistral AI 發布了 Magistral,這是一個全新的大語言模型(LLM)系列,展現了強大的推理能力。它能夠進行不斷反思,并解決更復雜的任務。

大模型強推理賽道,又迎來一位重量級玩家。

本周二,歐洲人工智能公司 Mistral AI 發布了 Magistral,這是一個全新的大語言模型(LLM)系列,展現了強大的推理能力。它能夠進行不斷反思,并解決更復雜的任務。

此次發布包含兩個版本:面向企業客戶的大型專有模型 Magistral Medium,以及一個 24B 參數的開源版本 Magistral Small。其中開源版本使用 Apache 2.0 許可,可以自由使用、商用化;Magistral Medium 則可通過 Mistral 的 Le Chat 界面和 La Plateforme API 訪問。

  • 直接使用:https://chat.mistral.ai/chat
  • 模型開源:https://huggingface.co/mistralai/Magistral-Small-2506
  • 論文:https://mistral.ai/static/research/magistral.pdf

在基準測試中,新模型取得了不錯的成績。這里主要是 Magistral 與其前身 Mistral-Medium 3 和 DeepSeek 系列的對比。Magistral Medium 在 AIME2024 上的得分為 73.6%,其中多數投票為 64%,得分為 90%。Magistral Small 的得分分別為 70.7% 和 83.3%。

圖片

新模型在一些其他高要求測試中也表現出色,包括研究生水平的問答基準測試 GPQA Diamond 和用于編程挑戰的 LiveCodeBench。

Mistral 進一步展示了一些實際使用的案例。

Magistral Medium 展示了自身的編程能力,一次生成輸出的代碼就能模擬出重力、摩擦力。

除了通過 Benchmark 和編程等「必考題」,Magistral 模型還擅長在多種語言中保持高保真推理。它尤其適合用于英語、法語、西班牙語、德語、意大利語、阿拉伯語、俄語、中文等語言的推理。

借助 Le Chat 中的 Flash Answers,Magistral Medium 還能實現比大多數競爭對手多達 10 倍的 token 吞吐量。Mistral 稱,這基本可以實現大規模的實時推理和用戶反饋。

因為以上一系列特性,Mistral 認為 Magistral 非常適合需要長時間思考和更高準確度的通用任務,相比非推理類的大模型,提升更為明顯。

在技術報告中,Mistral 表示 Magistral 應用了自主研發的可擴展強化學習流水線,其并非依賴現有實現和從先前模型中提煉出的強化學習痕跡,而是采用自下而上的方法,完全依賴自己的模型和基礎設施。

在 Magistral 工作中研究人員發現,基于文本的強化學習能夠保持甚至提升多模態理解、指令遵循和函數調用能力。

有趣的是,Magistral 的核心設計原則是使用與用戶相同的語言進行推理。在未經任何處理的數學和編程問題上進行強化學習通常會導致模型在推理過程中出現混合語言。在沒有語言限制的初步實驗中,Mistral 工程人員也經常觀察到混合英語、中文和俄語單詞的輸出。雖然這些輸出是連貫的,但為了避免語言切換,他們在計算對話(由問題、想法、答案組成)的獎勵時,首先通過刪除 LaTeX 內容和代碼塊對這三個部分進行歸一化,然后對每個部分應用 fastText 分類器。如果分類器指示所有三個部分都使用相同的語言,則會額外給予 0.1 的獎勵。

這樣簡單的修改足以使模型能夠緊密跟蹤用戶的語言,最大限度地減少代碼切換,同時保持推理任務的性能。盡管只將原始英語問題翻譯成幾種語言,但我們能觀察到 Magistral 模型能夠成功生成任意語言的思維鏈、系統提示。

Mistral 進一步在系統提示中指定了格式和語言要求,如下圖所示。實驗發現強化學習訓練對這些系統提示非常敏感。例如,系統提示中的「盡可能隨意,盡可能長」部分增加了模型的熵,從而改善了模型的探索能力。

Mistral 正在把 Magistral Medium 模型應用于包括 Amazon SageMaker 在內的主流云平臺,Azure AI、IBM WatsonX 和 Google Cloud Marketplace 也將緊隨其后。

在使用成本方面,Mistral 把 Magistral Medium 定位為一款獨特的高端產品,因此價格也是大幅上漲。

它的每百萬輸入 token 價格為 2 美元,每百萬輸出 token 是 5 美元,相比老款 Mistral Medium 3 價格大幅上漲,后者輸入成本僅為 0.4 美元,輸出成本為 2 美元。

然而,與外部競爭對手相比,Magistral Medium 的定價策略卻顯得極具競爭力。它的輸入成本比 OpenAI 最新型號便宜,與 Gemini 2.5 Pro 的價格處于同一水平,輸出成本也遠低于這兩款產品。

看起來,推理速度比競品快 10 倍的競爭優勢確實很大。

Magistral API 與其他領先 LLM 的推理成本對比。

在 Magistral 推出之后,Mistral 的目標是從此版本開始快速迭代模型。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-08 13:04:01

2025-06-11 09:19:46

2025-03-05 00:22:00

2025-05-29 03:00:00

混合推理模型LHRMAI

2020-10-24 07:30:05

開源字節跳動模型

2025-05-14 09:07:00

2025-06-10 03:30:00

2025-04-30 02:00:00

2025-03-19 09:00:00

模型AI訓練

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2024-12-26 07:10:00

2024-07-19 09:59:31

2025-05-28 02:40:00

AdaptThink推理模型AI

2024-09-24 11:01:03

2025-05-08 16:45:32

開源Phi-4推理模型

2023-03-22 13:53:26

芯片英偉達

2025-05-30 02:00:00

獎勵模型RRMAI

2023-01-08 13:22:03

模型

2023-01-18 09:51:56

模型開源

2025-02-25 14:46:59

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美亚洲视频 | 精品久久久久久18免费网站 | 红色av社区| 九九99精品 | 亚洲精品视频在线播放 | 91在线精品视频 | jizjizjiz中国护士18 | 免费性视频 | 九色在线观看 | 日韩高清中文字幕 | 中文字幕第十页 | 精品乱码一区二区 | 草草视频在线观看 | 欧美日韩国产欧美 | 国产一区久久精品 | 97av在线| 午夜精品一区二区三区免费视频 | 国产精品视频在线观看 | 日韩在线观看网站 | 四虎影视免费在线 | 伊人网影院 | 日韩综合一区 | 人人看人人搞 | 97国产精品视频人人做人人爱 | 国产一区二区三区视频 | 成人在线播放网站 | 精品视频亚洲 | 国产精品亚洲成在人线 | 久草在线高清 | 国产精品久久免费观看 | 日韩在线观看视频一区 | 亚洲视频一区在线观看 | 天堂一区二区三区四区 | av网站在线播放 | 91久操网| 一区二区三区四区免费在线观看 | 国产视频一二三区 | 91久久久久久久 | 日日摸夜夜爽人人添av | 日韩日韩日韩日韩日韩日韩日韩 | 欧美日韩国产在线观看 |