實測學而思MathGPT大模型:中小學數學解題正確率有望在全球范圍內創造新 SOTA
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
國內首個數學大模型MathGPT開放內測了,不上手試試怎么行?
第一印象上,最明顯的就是:啪的一下,很快啊~
題目識別到對話框,結果不光答案準確,還就給出了具體的公式步驟、詳細解析。
并且支持公式輸入和修改。
這著實是數理愛好者福音了!要知道市面上GPT-4在內的通用大模型,都無法實現這一點。
作為千億參數級別首個數學專用大模型,放在全球范圍內也是少數,背后則是來自國內教育行業20年深耕的學而思。
另外內測據說還只是開始,因為之前就已經透露,將于年內推出基于該自研大模型的產品級應用。
所以這款垂直數學大模型究竟怎么樣,完整上手“體驗報告”呈上。
上手實測:支持公式圖像輸入
首先,從大模型基礎功能來看,與GPT-4、Claude2相比,MathGPT主要有這些能與不能。
由于是數學專用大模型,因此對話內容目前只能回答與數學相關的問題。
界面上從現有的示例上看,它目前覆蓋小學、中學以及高中的題目。
不僅有內容的劃分,比如集合、立體幾何、解析幾何、導數、三角函數、統計學等模塊;
還有題型的選擇,比如應用題、高考填空壓軸、解答壓軸;
以及一些開拓思維的題目,比如小學題目中的推理推導、歸納總結、創新思維;初中的反正法、代入法等。
對于數學愛好者而言,可以說是非常全面了。
在輸入端,除了普通文本外,它支持公式格式以及圖像(帶有數字和文字)的輸入。
除此之外,面對數學題目的追問,它也支持多輪對話的能力。
了解基本情況后,接著就來考驗一下MathGPT的真實實力。
根據此前官方介紹,MathGPT是以解題和講題算法為核心的大模型,具體拆分為三個問題:
- 題目要解對;
- 解題步驟要穩定、清晰;
- 解題要講的有趣、個性化。
依照這樣的邏輯,先來看看它的基本解題思路。
以初中示例題為例,分為分析、詳解、點睛三個步驟,不光給出詳細的步驟,還會給你說知識點和題目難度,這歸屬于基本不等式的應用,難度為中檔。
甚至還可以舉一反三,比如就像這道整體代換的題目。
隨手修改其中一兩個數字,結果不光給出來了,還有更為詳細的解析。
那么再上點難度,直接考驗它高中題目,比如這道選擇壓軸。
結果也是分分鐘出來。
還有像涉及幾何類型的題目,也沒有被難倒。
,時長00:30
所以,一圈體驗下來,簡單總結一下MathGPT的評測感受:
- 基礎功能上支持公式格式、圖像輸入,對數學愛好者很友好;
- 支持小初高中的各類型題,覆蓋比較全面。
- 還能舉一反三,多輪對話。
除此之外,還有一些不足,比如圖像輸入暫時不支持幾何類型的題目,以及有時會出現一些亂碼問題,比如答案對了,但中文輸入,結果英文輸出……
首個數學大模型,為什么是學而思?
大模型涌現以來,數學推理能力始終是產學研界共同攻堅的對象。
通用思路都是基于現有的通用LLM進行調優,最典型的就是OpenAI自己提出過程監督方法。
傳統獎勵模型采用的是結果監督,僅針對思維鏈的結果進行判別和反饋;相對的,過程監督就是對思維鏈每一步進行反饋。因此獎勵增多、效果變好。
更多的還有像指令微調、prompt優化等思路。微軟全華人團隊提出WizardMath,用AI生成的指令微調羊駝大模型,結果直接超ChatGPT。
以及前段時間,有研究團隊發現GPT-4代碼解釋器的代碼生成和執行機制,于是就有特定的代碼約束提示詞直接將數學能力拔高至SOTA。
而像專門針對數學推理方向的自研大模型確實不多。目前來看,國內有且只有一個。
這樣做的核心原因只有一個,加速大模型在數學領域的落地。
于行業玩家而言,若是依照通用開源LLM進行調優,一來目前還處于積極探索的階段,沒有形成一個很好的范式;二來,幻覺問題沒有解決,穩定性依舊無法保證。
而數學推理不光要求結果的準確,還得強調過程的清晰和邏輯性。
當然同樣的原因,也不能簡單直接調用像GPT-4的API,性能等各方面始終會受限。
不過此前我們也討論過,打造行業大模型天然就有這非常高的壁壘,數據量大還得高質量,關鍵還要有場景,知道行業Know-how。
既然如此,學而思又是如何做到?
核心還是:術業專攻、對癥下藥。
一方面,最首要也是本質的原因——術業專攻——多年在數學和AI領域的深入研發和布局。
學而思“以數學起家”,至今已有20年的數學教學經驗,積累了龐大的數學相關數據,這些獨家數據是進行MathGPT訓練的必備物料。
而在AI領域,學而思早在第一波AI浪潮興起之時(2017年)就已經開始布局——成立AI lab人工智能實驗室。如今還是教育領域首批唯一一家人工智能“國家隊”成員。
在學術方面,學而思實際也有高頻產出。公開資料顯示,基于智慧教育人工智能開放創新平臺助力,學而思AI lab獲得各類頂級學術會議比賽冠軍16項,亞軍6項;發表國際期刊和會議高水平學術論文31篇,包含光學字符識別、圖像、自然語言處理、語音以及多模態等多領域的學術研究。
而在產品應用端,今年2月學而思學習機上線AI講題機器人“小π”。其相關技術于2020年啟動研發,背后是超3億專業題庫數據,經過三年的數據訓練和迭代。
在實測中可以看到,在配套的AR鏡識別到一道手寫或者印刷的數學計算題時。
小π機器人會對題目進行智能AI拆解分析,同時生成邏輯流暢、表達清晰的語言,將題目的解題方法講解出來。
該功能已覆蓋的題目包括分數、小數等復雜計算,甚至一些“湊數、組合”的巧妙算法,已十分接近真人老師的解題效果。
正是基于這樣的行業Know-how,MathGPT自誕生之日起就定義明確「面向更廣泛的數學愛好者和科研機構打造」,并對癥下藥 ——
因為想要打造數學垂直大模型,就繞不過三大挑戰:
- 第一,題目要解對。現在連GPT的結果經常出現錯誤;
- 第二,解題步驟要穩定、清晰。現在GPT的解題步驟每次都不一樣,而且生成內容經常很冗余;
- 第三,解題要講的有趣、個性化。現在GPT的解釋過于“學術”和機械,對體驗很不友好。
基于這樣的目標,MathGPT結合大模型和計算引擎兩者能力。
前者負責理解題目、分步解析,并在合適的步驟自行調用計算引擎,以此來提高正確率。基于海量名師解題過程的數據進行模型訓練,模型的解題步驟可以更加清晰。再引入優秀老師的教學理念和方法,模型在解題趣味性上也能進一步提高。
可以看到的是,學而思展現了場景玩家入局大模型的優勢——
可以后發制人,謀定而后動,而且壁壘天然。
Wolfram alpha之后,數學大模型
隨著業內首個數學大模型的發布,有關大模型在數學領域的落地可以階段性梳理,大致可以分為兩個方向。
一方面,科研為核心的前沿探索。陶哲軒不止一次地透露大模型如何加入其工作流、輔助研究。
他讓GPT-4針對論文提出問題來準備講座;還讓GPT-4生成數學證明,并發現過去閱讀人類作品的經驗完全不適用了。
對于AI在數學研究中的表現,他給出預言:
當與形式證明驗證器、互聯網搜索和數學符號包等工具整合時,2026年的AI,如果使用得當,將成為數學研究中值得信賴的共同作者,而且在許多其他領域也是如此。
事實上,在更多的科研領域,大模型也正在賦予這樣的價值。學界教授也不止一次提出,大模型的幻覺不見得是壞事,可以給研究方向提供新思路。
另一方面,則是面向更廣泛大眾的普惠教育、基礎教育提升。讓大模型參與到學習數學、思考數學的過程當中去,幫助人們更好地解決數學問題。學而思MathGPT就是基于這樣的初衷。
事實上,數學本身在各個領域中充當著一種基礎能力,未來數學大模型也將能夠以工具的形態,與更多行業產生關聯。
在此之前,理工科神器Wolfram alpha,就是以這樣的作用垂直風靡。
它顛覆了傳統模式,創造了一種全新的知識搜索引擎。由于支持幾何、數值以及符號式計算,并擁有強大的可視化功能,支持用戶對上傳的圖片進行識別等一系列功能而受到推崇。目前已經支持包括數學、統計學、物理化學、材料學等近20個領域的查詢、計算和分析。
而現在,隨著大模型范式到來,Wolfram alpha一樣的理工基礎教育、科研的工具,也將面臨革新浪潮。
至少MathGPT已經展現了這樣的趨勢,MathGPT正在實踐這樣的趨勢。
而MathGPT,一定只是開始。你說呢?