成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大GPT解題有數學老師內味了,用人話講難題,從高中數學到高數都能搞定

人工智能 新聞
團隊提出了Learning to Program (LP)方法,讓LLM從自然語言程序數據集中進行學習,并用學到的內容指導其推理過程。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

北大團隊教會AI把人話當編程語言用。

這下大語言模型(LLM)不光能做對數學題,而且解題過程你也能看懂!

數學,曾經是不知多少人學生時代的夢魘。但是現在,LLM或許可以幫你脫離苦海了。

圖片

用自然語言編程,本質就是描述步驟再執行,GPT3.5其實本來就會,但結果卻不忍直視——往往包含不完整步驟甚至事實錯誤。

于是團隊便提出了Learning to Program (LP)方法,讓LLM從自然語言程序數據集中進行學習,并用學到的內容指導其推理過程。

具體來說,他們將一些高中數學問題和對應解題程序以自然語言形式灌輸給GPT。

經過訓練,ChatGPT具備了團隊預期的解題能力。

在使用10個高中難度的數學問題進行的零樣本測試中,LP加持后的LLM成績顯著提高。

這10個問題包括幾何、代數和微積分,具體如下表所示:

圖片

可以看出,在每一項任務中,有LP加持的ChatGPT表現,無論是在零樣本還是少樣本測試中,均優于獨立或自編程的版本。

對于第8類問題,LP加持版更是在少樣本測試中取得了100分的成績。

圖片

團隊又將難度提高,測試其在(高等數學視角下的)中級代數(IA)、數論(NT)、幾何、統計概率(CP)等方面的表現,結果均好于無加持的ChatGPT或僅有極小的差距。

圖片

當然,這些數據還不能證明LP訓練在提高ChatGPT數學成績當中的關聯性。

于是團隊使用一道幾何問題,評估了ChatGPT在LP訓練前、中、后三個階段的表現。

結果顯示,輸出內容的正確率的確隨著訓練過程的進行在逐步提高。

圖片

在接下來的質量評價中,訓練后的LLM可以給出多種通用性策略。

因此,團隊認為,在今后的訓練中,只需要將某一類問題的通用解法教給LLM。

有了通用方法,它們就可以舉一反三,解決未知但性質相同的問題。

LP的訓練過程是怎樣的

LP訓練的第一步,是要先準備出問題,以及對應的用自然語言編寫出的程序,作為訓練數據集。

這種自然語言程序不是具體的解題步驟,它們需要具有更強的通用性。

相應的,準備的問題也不是具體的,而是某一類問題。

既要簡短明確,同時又要考慮到實際過程中所有可能出現的情況。

這些自然語言程序主要有三種來源:機器自生成、人工編寫和經LP訓練的LLM生成。

人工編寫工作量過于龐大,LP訓練已經是結果,所以實際使用的數據集主要來源于第一種途徑。

有了訓練數據,LLM便可以結合數據集中的問題,學習句子、段落和公式。

圖片

初步學習完成之后,就要讓LLM進行預測,并與預設結果比較,計算誤差。

同時,所有不符合預設正確結果的輸出均被收集,構成了錯誤數據集。

錯誤數據集在之后的階段也將作為LLM學習的內容,以避免再次出現同樣的失誤。

圖片

基于這些錯誤數據,研究人員讓LLM對所提出的策略進行回溯,但又引發了新的問題:

一是出現了重復的解決方案需要移除,二是有些方案自身內容雖然沒錯,但與問題并不匹配。

最重要的第三點,是輸入數據的長度會隨著回溯的過程不斷增加……

于是團隊還需要對回溯數據進行壓縮,并判斷它們對LLM改正錯誤是否有幫助。

圖片

經過這一系列的處理,便可以將回溯數據作為訓練樣本,升級LLM程序了。

最終,升級后的程序經過檢驗,就可以使用了。

圖片

△舉個例子:已知直角三角形兩邊,求某角正弦值

團隊介紹

團隊的領導者是北京大學王選計算機研究所博士生導師趙東巖研究員和微軟亞洲研究院首席研究員段楠博士。

趙東巖2000年獲得北大博士學位,主要研究方向為自然語言處理、大規模語義數據管理、基于知識的智能服務技術。

段楠博士畢業于天津大學,于2012年進入微軟一直研究院,并在2018年6月晉升為首席研究員。

此外,他還多次擔任NLP/AI學術會議程序主席,發表學術論文100余篇,持有專利20余項。

論文地址:https://arxiv.org/abs/2304.10464

責任編輯:張燕妮 來源: 量子位
相關推薦

2019-04-10 09:23:10

梯度下降機器學習算法

2025-01-10 09:25:00

模型數據微軟

2024-12-23 10:20:00

數據訓練模型

2013-12-09 16:35:25

2023-11-16 12:36:00

AI數據

2024-05-20 15:40:00

AI數學

2025-05-26 08:39:00

2024-12-30 08:30:00

AI模型數據

2024-08-19 08:45:00

開源模型

2023-09-14 13:10:48

2023-06-30 13:42:44

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-10-08 13:11:00

訓練數據

2019-07-11 10:00:29

串行并行并發

2023-11-30 15:36:36

SympyPython

2009-04-16 09:23:09

福布斯超級富豪出生

2013-07-11 13:26:11

2025-04-15 08:50:00

2020-01-13 09:28:23

程序員技能開發者

2023-08-30 13:09:12

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕日韩一区二区 | 99re热这里只有精品视频 | 日韩在线不卡 | 9999在线视频 | 成人国产精品久久 | 欧美一级毛片在线播放 | 亚洲一区精品在线 | 一级在线观看 | 国产www成人| 亚洲福利一区二区 | 香蕉视频91 | 国产精品久久久亚洲 | 男人天堂手机在线视频 | 色吊丝在线 | 日韩欧美在 | 能免费看的av | 美女国内精品自产拍在线播放 | 紧缚调教一区二区三区视频 | 欧美日本一区 | 亚洲精品成人av久久 | 99精品在线观看 | 免费看黄色视屏 | 国产精品视频免费观看 | 熟女毛片 | 中文字幕亚洲视频 | 日韩久久综合网 | 欧美日韩视频在线播放 | 成人乱人乱一区二区三区软件 | 日韩国产中文字幕 | 久久免费高清视频 | 免费在线观看成人av | 久草中文在线 | 中文区中文字幕免费看 | .国产精品成人自产拍在线观看6 | www.干| 日本成人毛片 | 亚洲成a人片 | 欧美高清一级片 | 美女久久久久久久久 | www.操.com | 91午夜在线 |