成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實測學而思MathGPT大模型:中小學數學解題正確率有望在全球范圍內創造新 SOTA

人工智能 新聞
它顛覆了傳統模式,創造了一種全新的知識搜索引擎。由于支持幾何、數值以及符號式計算,并擁有強大的可視化功能,支持用戶對上傳的圖片進行識別等一系列功能而受到推崇。目前已經支持包括數學、統計學、物理化學、材料學等近20個領域的查詢、計算和分析。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

國內首個數學大模型MathGPT開放內測了,不上手試試怎么行?

第一印象上,最明顯的就是:啪的一下,很快啊~

題目識別到對話框,結果不光答案準確,還就給出了具體的公式步驟、詳細解析。

圖片

并且支持公式輸入和修改

圖片

這著實是數理愛好者福音了!要知道市面上GPT-4在內的通用大模型,都無法實現這一點。

作為千億參數級別首個數學專用大模型,放在全球范圍內也是少數,背后則是來自國內教育行業20年深耕的學而思

另外內測據說還只是開始,因為之前就已經透露,將于年內推出基于該自研大模型的產品級應用。

所以這款垂直數學大模型究竟怎么樣,完整上手“體驗報告”呈上。

圖片

上手實測:支持公式圖像輸入

首先,從大模型基礎功能來看,與GPT-4、Claude2相比,MathGPT主要有這些能與不能。

圖片

由于是數學專用大模型,因此對話內容目前只能回答與數學相關的問題。

圖片

界面上從現有的示例上看,它目前覆蓋小學、中學以及高中的題目。

不僅有內容的劃分,比如集合、立體幾何、解析幾何、導數、三角函數、統計學等模塊;

還有題型的選擇,比如應用題、高考填空壓軸、解答壓軸;

以及一些開拓思維的題目,比如小學題目中的推理推導、歸納總結、創新思維;初中的反正法、代入法等。

圖片

對于數學愛好者而言,可以說是非常全面了。

輸入端,除了普通文本外,它支持公式格式以及圖像(帶有數字和文字)的輸入。

圖片

除此之外,面對數學題目的追問,它也支持多輪對話的能力。

圖片

了解基本情況后,接著就來考驗一下MathGPT的真實實力。

根據此前官方介紹,MathGPT是以解題和講題算法為核心的大模型,具體拆分為三個問題:

  • 題目要解對;
  • 解題步驟要穩定、清晰;
  • 解題要講的有趣、個性化。

依照這樣的邏輯,先來看看它的基本解題思路。

以初中示例題為例,分為分析、詳解、點睛三個步驟,不光給出詳細的步驟,還會給你說知識點和題目難度,這歸屬于基本不等式的應用,難度為中檔。

圖片

甚至還可以舉一反三,比如就像這道整體代換的題目。

圖片

隨手修改其中一兩個數字,結果不光給出來了,還有更為詳細的解析。

圖片

那么再上點難度,直接考驗它高中題目,比如這道選擇壓軸。

圖片

結果也是分分鐘出來。

圖片

還有像涉及幾何類型的題目,也沒有被難倒。

,時長00:30

所以,一圈體驗下來,簡單總結一下MathGPT的評測感受:

  • 基礎功能上支持公式格式、圖像輸入,對數學愛好者很友好;
  • 支持小初高中的各類型題,覆蓋比較全面。
  • 還能舉一反三,多輪對話。

除此之外,還有一些不足,比如圖像輸入暫時不支持幾何類型的題目,以及有時會出現一些亂碼問題,比如答案對了,但中文輸入,結果英文輸出……

圖片

首個數學大模型,為什么是學而思?

大模型涌現以來,數學推理能力始終是產學研界共同攻堅的對象。

通用思路都是基于現有的通用LLM進行調優,最典型的就是OpenAI自己提出過程監督方法。

傳統獎勵模型采用的是結果監督,僅針對思維鏈的結果進行判別和反饋;相對的,過程監督就是對思維鏈每一步進行反饋。因此獎勵增多、效果變好。

更多的還有像指令微調、prompt優化等思路。微軟全華人團隊提出WizardMath,用AI生成的指令微調羊駝大模型,結果直接超ChatGPT。

以及前段時間,有研究團隊發現GPT-4代碼解釋器的代碼生成和執行機制,于是就有特定的代碼約束提示詞直接將數學能力拔高至SOTA。

而像專門針對數學推理方向的自研大模型確實不多。目前來看,國內有且只有一個

這樣做的核心原因只有一個,加速大模型在數學領域的落地

于行業玩家而言,若是依照通用開源LLM進行調優,一來目前還處于積極探索的階段,沒有形成一個很好的范式;二來,幻覺問題沒有解決,穩定性依舊無法保證。

而數學推理不光要求結果的準確,還得強調過程的清晰和邏輯性

當然同樣的原因,也不能簡單直接調用像GPT-4的API,性能等各方面始終會受限。

不過此前我們也討論過,打造行業大模型天然就有這非常高的壁壘,數據量大還得高質量,關鍵還要有場景,知道行業Know-how。

既然如此,學而思又是如何做到?

核心還是:術業專攻、對癥下藥

一方面,最首要也是本質的原因——術業專攻——多年在數學和AI領域的深入研發和布局。

學而思“以數學起家”,至今已有20年的數學教學經驗,積累了龐大的數學相關數據,這些獨家數據是進行MathGPT訓練的必備物料。

而在AI領域,學而思早在第一波AI浪潮興起之時(2017年)就已經開始布局——成立AI lab人工智能實驗室。如今還是教育領域首批唯一一家人工智能“國家隊”成員。

在學術方面,學而思實際也有高頻產出。公開資料顯示,基于智慧教育人工智能開放創新平臺助力,學而思AI lab獲得各類頂級學術會議比賽冠軍16項,亞軍6項;發表國際期刊和會議高水平學術論文31篇,包含光學字符識別、圖像、自然語言處理、語音以及多模態等多領域的學術研究。

而在產品應用端,今年2月學而思學習機上線AI講題機器人“小π”。其相關技術于2020年啟動研發,背后是超3億專業題庫數據,經過三年的數據訓練和迭代。

在實測中可以看到,在配套的AR鏡識別到一道手寫或者印刷的數學計算題時。

小π機器人會對題目進行智能AI拆解分析,同時生成邏輯流暢、表達清晰的語言,將題目的解題方法講解出來。

該功能已覆蓋的題目包括分數、小數等復雜計算,甚至一些“湊數、組合”的巧妙算法,已十分接近真人老師的解題效果。

圖片

正是基于這樣的行業Know-how,MathGPT自誕生之日起就定義明確「面向更廣泛的數學愛好者和科研機構打造」,并對癥下藥 ——

因為想要打造數學垂直大模型,就繞不過三大挑戰:

  • 第一,題目要解對。現在連GPT的結果經常出現錯誤;
  • 第二,解題步驟要穩定、清晰。現在GPT的解題步驟每次都不一樣,而且生成內容經常很冗余;
  • 第三,解題要講的有趣、個性化。現在GPT的解釋過于“學術”和機械,對體驗很不友好。

基于這樣的目標,MathGPT結合大模型計算引擎兩者能力。

前者負責理解題目、分步解析,并在合適的步驟自行調用計算引擎,以此來提高正確率。基于海量名師解題過程的數據進行模型訓練,模型的解題步驟可以更加清晰。再引入優秀老師的教學理念和方法,模型在解題趣味性上也能進一步提高。

可以看到的是,學而思展現了場景玩家入局大模型的優勢——

可以后發制人,謀定而后動,而且壁壘天然

Wolfram alpha之后,數學大模型

隨著業內首個數學大模型的發布,有關大模型在數學領域的落地可以階段性梳理,大致可以分為兩個方向。

一方面,科研為核心的前沿探索。陶哲軒不止一次地透露大模型如何加入其工作流、輔助研究。

他讓GPT-4針對論文提出問題來準備講座;還讓GPT-4生成數學證明,并發現過去閱讀人類作品的經驗完全不適用了。

對于AI在數學研究中的表現,他給出預言:

當與形式證明驗證器、互聯網搜索和數學符號包等工具整合時,2026年的AI,如果使用得當,將成為數學研究中值得信賴的共同作者,而且在許多其他領域也是如此。

事實上,在更多的科研領域,大模型也正在賦予這樣的價值。學界教授也不止一次提出,大模型的幻覺不見得是壞事,可以給研究方向提供新思路。

另一方面,則是面向更廣泛大眾的普惠教育、基礎教育提升。讓大模型參與到學習數學、思考數學的過程當中去,幫助人們更好地解決數學問題。學而思MathGPT就是基于這樣的初衷。

事實上,數學本身在各個領域中充當著一種基礎能力,未來數學大模型也將能夠以工具的形態,與更多行業產生關聯。

在此之前,理工科神器Wolfram alpha,就是以這樣的作用垂直風靡。

圖片

它顛覆了傳統模式,創造了一種全新的知識搜索引擎。由于支持幾何、數值以及符號式計算,并擁有強大的可視化功能,支持用戶對上傳的圖片進行識別等一系列功能而受到推崇。目前已經支持包括數學、統計學、物理化學、材料學等近20個領域的查詢、計算和分析。

而現在,隨著大模型范式到來,Wolfram alpha一樣的理工基礎教育、科研的工具,也將面臨革新浪潮。

至少MathGPT已經展現了這樣的趨勢,MathGPT正在實踐這樣的趨勢。

而MathGPT,一定只是開始。你說呢?

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-06 13:45:58

AI研發

2023-05-08 15:14:38

技術AI

2023-08-24 14:27:00

AI模型

2024-08-19 08:45:00

開源模型

2012-12-03 11:08:07

寬帶LAN網絡環境

2021-01-07 13:07:21

網絡攻擊新冠病毒網絡犯罪

2023-08-24 13:59:57

模型數據

2013-04-25 10:50:37

iCloud宕機

2021-01-07 13:36:13

醫療機構攻擊

2021-04-22 13:24:50

人工智能AI

2018-04-04 15:23:00

人工智能教育信息時代

2023-06-25 10:19:01

2014-06-27 14:12:39

浪潮天梭學籍系統

2010-03-04 09:45:45

IBM裁員

2019-03-10 16:11:47

電子作業兩會教育部

2012-10-17 10:07:53

Splunk

2010-01-25 09:47:50

2025-01-21 13:15:15

2023-02-22 14:11:11

2021-09-09 10:06:24

物聯網人工智能IoT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 81精品国产乱码久久久久久 | 日韩午夜网站 | 国产一区二区三区在线 | 久久蜜桃av | 欧美中文字幕一区二区三区 | 最新中文字幕在线播放 | 黄色一级大片视频 | 另类亚洲视频 | 中文精品一区二区 | av一区二区三区在线观看 | 久久青| 亚洲高清视频一区二区 | 黄网免费看 | 国产精品久久久久久久久久了 | 中文字幕四虎 | 在线观看视频一区 | 久久久久成人精品免费播放动漫 | 免费看的黄网站 | 日韩精品网站 | 久久久久久国产精品mv | 91中文在线观看 | 成人天堂噜噜噜 | 国产成人久久av免费高清密臂 | 日韩免费av网站 | 在线免费国产 | 久久精品99 | 99热碰| 日本久久一区二区三区 | 成人在线精品 | 国产精品免费一区二区三区四区 | 国产日韩久久 | 欧美v日韩v | 亚洲欧美日韩一区 | 青青久在线视频 | 国产欧美精品一区二区三区 | 天天综合国产 | 日韩在线不卡 | 911精品美国片911久久久 | 自拍中文字幕 | 在线国产视频 | 国产在线精品一区二区 |