數學推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場！原創

發布于 2025-4-30 10:46

瀏覽

0收藏

在 AI 的世界里，數學推理一直是個讓人又愛又恨的難題。為啥呢？因為它不僅需要理解抽象的概念，還得精準地進行多步邏輯推理。以前的語言模型，雖然生成文本很流暢，但遇到復雜的數學問題，就像讓一個文科生去解奧數題，常常無從下手。不過，最近 NVIDIA 發布的 OpenMath-Nemotron 系列模型，直接把這個問題給解決了！今天，咱們就來好好聊聊這個厲害的 AI 新星。

數學推理，為啥這么難？

數學推理就像是 AI 領域的一座高山。它需要 AI 不僅要理解數學概念，還要像人類一樣進行邏輯推理。比如，解決一個復雜的幾何題，不僅要記住公式，還得知道怎么一步步推導。傳統的語言模型雖然能生成很流暢的文本，但面對這種需要深度邏輯的數學問題，就顯得力不從心了。這就像是讓一個擅長寫散文的人去解復雜的數學題，難度可想而知。

NVIDIA 的新武器：OpenMath-Nemotron 系列

NVIDIA 這次發布的 OpenMath-Nemotron 系列模型，可以說是專門為數學推理量身定制的。這個系列包括了兩個版本：OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle。它們都是基于 Qwen 家族的 Transformer 模型，通過大規模的微調訓練，專門針對數學問題進行了優化。

OpenMath-Nemotron-32B：旗艦版的強大力量

OpenMath-Nemotron-32B 是這個系列的旗艦版本，擁有 328 億個參數，采用了 BF16 張量操作，硬件利用效率極高。它是通過對 Qwen2.5-32B 在 OpenMathReasoning 數據集上進行微調訓練而成的。這個數據集包含了來自數學競賽和標準化考試的高難度問題，可以說是為數學推理量身定制的。

這個模型在多個嚴格的基準測試中都取得了頂尖的成績。比如，在 2024 年和 2025 年的美國數學邀請賽（AIME）和哈佛-麻省理工數學競賽（HMMT）中，它的表現都超過了之前的頂尖模型。在工具集成推理（TIR）模式下，它在 AIME24 上的平均通過率達到了 78.4%，多數投票準確率更是高達 93.3%。

三種推理模式，滿足不同需求

為了讓這個模型適應不同的推理場景，OpenMath-Nemotron-32B 支持三種不同的模式：思維鏈（CoT）、工具集成推理（TIR）和生成式解選擇（GenSelect）。

思維鏈（CoT）模式：這個模式會先生成中間的推理步驟，然后再給出最終答案。在 AIME24 上，它的通過率達到了 76.5%。
生成式解選擇（GenSelect）模式：這個模式會生成多個候選解，然后選擇最一致的答案。在 AIME24 上，它的準確率達到了驚人的 93.3%。

這三種模式讓用戶可以根據需求平衡解釋的豐富性和答案的精確性，無論是需要透明度的研究環境，還是需要速度和可靠性的生產環境，都能找到合適的解決方案。

OpenMath-Nemotron-14B-Kaggle：小而精的競賽利器

除了 32B 版本，NVIDIA 還發布了 OpenMath-Nemotron-14B-Kaggle，這是一個擁有 148 億參數的模型，專門針對競賽場景進行了優化。它在 AIMO-2 Kaggle 競賽中獲得了第一名，這個競賽專注于解決高級數學問題。通過調整訓練數據，使其更符合競賽的格式和難度，這個模型展現出了極高的適應性。

在 AIME24 上，14B-Kaggle 模型在 CoT 模式下的通過率達到了 73.7%，在 GenSelect 模式下提升到了 86.7%。在 AIME25 上，它的通過率達到了 57.9%（多數投票為 64.3%），在 HMMT-24-25 上達到了 50.5%（多數投票為 64.8%）。這些數據表明，即使在參數更少的情況下，這個模型依然能夠提供高質量的解決方案，非常適合資源受限或需要低延遲的場景。

數學推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場！-AI.x社區

開源管道，讓開發更輕松

NVIDIA 為這兩個模型提供了完整的開源管道，包括數據生成、訓練流程和評估協議。這些工作流程被集成到了 NVIDIA 的 NeMo-Skills 框架中，提供了 CoT、TIR 和 GenSelect 推理模式的參考實現。開發者可以通過示例代碼快速搭建 Transformer 流水線，配置數據類型和設備映射，并解析模型輸出，從而快速開發出查詢這些模型的應用程序。

高效的硬件優化

這兩個模型都經過了優化，可以在 NVIDIA 的 GPU 架構上高效運行，從 Ampere 到 Hopper 微架構，都利用了高度優化的 CUDA 庫和 TensorRT 優化。對于生產部署，用戶可以通過 Triton 推理服務器實現低延遲、高吞吐量的集成，無論是網絡服務還是批量處理流程都能輕松應對。BF16 張量格式的采用，平衡了數值精度和內存占用，使得這些大規模模型能夠在 GPU 內存限制內運行，同時在各種硬件平臺上保持強大的性能。

未來展望：數學推理的新方向

NVIDIA 的 OpenMath-Nemotron 系列模型不僅在當前的數學推理任務中表現出色，還為未來的發展指明了方向。未來，這些模型可能會擴展到更高級的大學數學，支持多模態輸入（例如手寫方程），并與符號計算引擎更緊密地集成，以驗證和增強生成的解決方案。

總結：數學推理的新時代

NVIDIA 的 OpenMath-Nemotron 系列模型，通過針對數學推理的專項微調，成功解決了語言模型在數學推理上的短板。32B 參數版本在多個基準測試中取得了頂尖成績，提供了三種推理模式以平衡解釋的豐富性和答案的精確性；14B-Kaggle 版本則在競賽場景中表現出色，展現了在更小參數規模下的高效性。這兩個模型都通過開源管道實現了完全可復現性，并通過 NVIDIA 的 NeMo-Skills 框架提供了所有推理模式的參考實現。它們不僅在硬件上進行了優化，還為未來的高級數學應用奠定了基礎。

無論是 AI 輔助教學系統、學術競賽準備工具，還是需要形式化或符號推理的科學計算工作流程，OpenMath-Nemotron 系列模型都展現出了巨大的潛力。隨著技術的不斷進步，我們有理由相信，數學推理的 AI 新時代已經到來！

本文轉載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/YNqjkIKol63aLdLiAJFK1A??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

NVIDIA

OpenMath-Nemotro

大模型

贊

回復