實測學而思MathGPT大模型：中小學數學解題正確率有望在全球范圍內創造新 SOTA

作者：白交 2023-08-29 18:26:32

人工智能新聞

它顛覆了傳統模式，創造了一種全新的知識搜索引擎。由于支持幾何、數值以及符號式計算，并擁有強大的可視化功能，支持用戶對上傳的圖片進行識別等一系列功能而受到推崇。目前已經支持包括數學、統計學、物理化學、材料學等近20個領域的查詢、計算和分析。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

國內首個數學大模型MathGPT開放內測了，不上手試試怎么行？

第一印象上，最明顯的就是：啪的一下，很快啊~

題目識別到對話框，結果不光答案準確，還就給出了具體的公式步驟、詳細解析。

并且支持公式輸入和修改。

這著實是數理愛好者福音了！要知道市面上GPT-4在內的通用大模型，都無法實現這一點。

作為千億參數級別首個數學專用大模型，放在全球范圍內也是少數，背后則是來自國內教育行業20年深耕的學而思。

另外內測據說還只是開始，因為之前就已經透露，將于年內推出基于該自研大模型的產品級應用。

所以這款垂直數學大模型究竟怎么樣，完整上手“體驗報告”呈上。

上手實測：支持公式圖像輸入

首先，從大模型基礎功能來看，與GPT-4、Claude2相比，MathGPT主要有這些能與不能。

由于是數學專用大模型，因此對話內容目前只能回答與數學相關的問題。

界面上從現有的示例上看，它目前覆蓋小學、中學以及高中的題目。

不僅有內容的劃分，比如集合、立體幾何、解析幾何、導數、三角函數、統計學等模塊；

還有題型的選擇，比如應用題、高考填空壓軸、解答壓軸；

以及一些開拓思維的題目，比如小學題目中的推理推導、歸納總結、創新思維；初中的反正法、代入法等。

對于數學愛好者而言，可以說是非常全面了。

在輸入端，除了普通文本外，它支持公式格式以及圖像（帶有數字和文字）的輸入。

除此之外，面對數學題目的追問，它也支持多輪對話的能力。

了解基本情況后，接著就來考驗一下MathGPT的真實實力。

根據此前官方介紹，MathGPT是以解題和講題算法為核心的大模型，具體拆分為三個問題：

題目要解對；
解題步驟要穩定、清晰；
解題要講的有趣、個性化。

依照這樣的邏輯，先來看看它的基本解題思路。

以初中示例題為例，分為分析、詳解、點睛三個步驟，不光給出詳細的步驟，還會給你說知識點和題目難度，這歸屬于基本不等式的應用，難度為中檔。

甚至還可以舉一反三，比如就像這道整體代換的題目。

隨手修改其中一兩個數字，結果不光給出來了，還有更為詳細的解析。

那么再上點難度，直接考驗它高中題目，比如這道選擇壓軸。

結果也是分分鐘出來。

還有像涉及幾何類型的題目，也沒有被難倒。

，時長00:30

所以，一圈體驗下來，簡單總結一下MathGPT的評測感受：

基礎功能上支持公式格式、圖像輸入，對數學愛好者很友好；
支持小初高中的各類型題，覆蓋比較全面。
還能舉一反三，多輪對話。

除此之外，還有一些不足，比如圖像輸入暫時不支持幾何類型的題目，以及有時會出現一些亂碼問題，比如答案對了，但中文輸入，結果英文輸出……

首個數學大模型，為什么是學而思？

大模型涌現以來，數學推理能力始終是產學研界共同攻堅的對象。

通用思路都是基于現有的通用LLM進行調優，最典型的就是OpenAI自己提出過程監督方法。

傳統獎勵模型采用的是結果監督，僅針對思維鏈的結果進行判別和反饋；相對的，過程監督就是對思維鏈每一步進行反饋。因此獎勵增多、效果變好。

更多的還有像指令微調、prompt優化等思路。微軟全華人團隊提出WizardMath，用AI生成的指令微調羊駝大模型，結果直接超ChatGPT。

以及前段時間，有研究團隊發現GPT-4代碼解釋器的代碼生成和執行機制，于是就有特定的代碼約束提示詞直接將數學能力拔高至SOTA。

而像專門針對數學推理方向的自研大模型確實不多。目前來看，國內有且只有一個。

這樣做的核心原因只有一個，加速大模型在數學領域的落地。

于行業玩家而言，若是依照通用開源LLM進行調優，一來目前還處于積極探索的階段，沒有形成一個很好的范式；二來，幻覺問題沒有解決，穩定性依舊無法保證。

而數學推理不光要求結果的準確，還得強調過程的清晰和邏輯性。

當然同樣的原因，也不能簡單直接調用像GPT-4的API，性能等各方面始終會受限。

不過此前我們也討論過，打造行業大模型天然就有這非常高的壁壘，數據量大還得高質量，關鍵還要有場景，知道行業Know-how。

既然如此，學而思又是如何做到？

核心還是：術業專攻、對癥下藥。

一方面，最首要也是本質的原因——術業專攻——多年在數學和AI領域的深入研發和布局。

學而思“以數學起家”，至今已有20年的數學教學經驗，積累了龐大的數學相關數據，這些獨家數據是進行MathGPT訓練的必備物料。

而在AI領域，學而思早在第一波AI浪潮興起之時（2017年）就已經開始布局——成立AI lab人工智能實驗室。如今還是教育領域首批唯一一家人工智能“國家隊”成員。

在學術方面，學而思實際也有高頻產出。公開資料顯示，基于智慧教育人工智能開放創新平臺助力，學而思AI lab獲得各類頂級學術會議比賽冠軍16項，亞軍6項；發表國際期刊和會議高水平學術論文31篇，包含光學字符識別、圖像、自然語言處理、語音以及多模態等多領域的學術研究。

而在產品應用端，今年2月學而思學習機上線AI講題機器人“小π”。其相關技術于2020年啟動研發，背后是超3億專業題庫數據，經過三年的數據訓練和迭代。

在實測中可以看到，在配套的AR鏡識別到一道手寫或者印刷的數學計算題時。

小π機器人會對題目進行智能AI拆解分析，同時生成邏輯流暢、表達清晰的語言，將題目的解題方法講解出來。

該功能已覆蓋的題目包括分數、小數等復雜計算，甚至一些“湊數、組合”的巧妙算法，已十分接近真人老師的解題效果。

正是基于這樣的行業Know-how，MathGPT自誕生之日起就定義明確「面向更廣泛的數學愛好者和科研機構打造」，并對癥下藥 ——

因為想要打造數學垂直大模型，就繞不過三大挑戰：

第一，題目要解對。現在連GPT的結果經常出現錯誤；
第二，解題步驟要穩定、清晰。現在GPT的解題步驟每次都不一樣，而且生成內容經常很冗余；
第三，解題要講的有趣、個性化。現在GPT的解釋過于“學術”和機械，對體驗很不友好。

基于這樣的目標，MathGPT結合大模型和計算引擎兩者能力。

前者負責理解題目、分步解析，并在合適的步驟自行調用計算引擎，以此來提高正確率。基于海量名師解題過程的數據進行模型訓練，模型的解題步驟可以更加清晰。再引入優秀老師的教學理念和方法，模型在解題趣味性上也能進一步提高。

可以看到的是，學而思展現了場景玩家入局大模型的優勢——

可以后發制人，謀定而后動，而且壁壘天然。

Wolfram alpha之后，數學大模型

隨著業內首個數學大模型的發布，有關大模型在數學領域的落地可以階段性梳理，大致可以分為兩個方向。

一方面，科研為核心的前沿探索。陶哲軒不止一次地透露大模型如何加入其工作流、輔助研究。

他讓GPT-4針對論文提出問題來準備講座；還讓GPT-4生成數學證明，并發現過去閱讀人類作品的經驗完全不適用了。

對于AI在數學研究中的表現，他給出預言：

當與形式證明驗證器、互聯網搜索和數學符號包等工具整合時，2026年的AI，如果使用得當，將成為數學研究中值得信賴的共同作者，而且在許多其他領域也是如此。

事實上，在更多的科研領域，大模型也正在賦予這樣的價值。學界教授也不止一次提出，大模型的幻覺不見得是壞事，可以給研究方向提供新思路。

另一方面，則是面向更廣泛大眾的普惠教育、基礎教育提升。讓大模型參與到學習數學、思考數學的過程當中去，幫助人們更好地解決數學問題。學而思MathGPT就是基于這樣的初衷。

事實上，數學本身在各個領域中充當著一種基礎能力，未來數學大模型也將能夠以工具的形態，與更多行業產生關聯。

在此之前，理工科神器Wolfram alpha，就是以這樣的作用垂直風靡。

而現在，隨著大模型范式到來，Wolfram alpha一樣的理工基礎教育、科研的工具，也將面臨革新浪潮。

至少MathGPT已經展現了這樣的趨勢，MathGPT正在實踐這樣的趨勢。

而MathGPT，一定只是開始。你說呢？

責任編輯：張燕妮來源：量子位

數學模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實測學而思MathGPT大模型：中小學數學解題正確率有望在全球范圍內創造新 SOTA

上手實測：支持公式圖像輸入

首個數學大模型，為什么是學而思？

Wolfram alpha之后，數學大模型