成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌、OpenAI學(xué)者談AI:語(yǔ)言模型正在努力「攻克」數(shù)學(xué)

人工智能 新聞
AI 到底擅不擅長(zhǎng)數(shù)學(xué),還得具體問(wèn)題具體分析。

如果問(wèn)計(jì)算機(jī)擅長(zhǎng)什么,在所有的答案里,數(shù)學(xué)必須榜上有名。在經(jīng)歷了漫長(zhǎng)的研究之后,頂尖學(xué)者們?cè)谘芯坑?jì)算機(jī)關(guān)于數(shù)學(xué)計(jì)算方面的發(fā)展,取得了令人驚訝的成績(jī)。

就拿去年來(lái)說(shuō),來(lái)自加州大學(xué)伯克利分校、OpenAI 和 Google 的研究人員在語(yǔ)言模型方面取得了長(zhǎng)足的進(jìn)步,GPT-3、DALL·E 2 等被開(kāi)發(fā)出來(lái)。然而,直到現(xiàn)在,語(yǔ)言模型還無(wú)法解決一些簡(jiǎn)單的、用語(yǔ)言描述的數(shù)學(xué)問(wèn)題,例如「Alice 比 Bob 多五個(gè)球,Bob 在給 Charlie 四個(gè)球后有兩個(gè)球。問(wèn) Alice 有幾個(gè)球?」這對(duì)語(yǔ)言模型來(lái)說(shuō),想要給出正確答案,可能就有點(diǎn)「吃力」了。

「當(dāng)我們說(shuō)計(jì)算機(jī)非常擅長(zhǎng)數(shù)學(xué)時(shí),意思是它們非常擅長(zhǎng)特定的、具體的事情,」來(lái)自谷歌的機(jī)器學(xué)習(xí)專(zhuān)家 Guy Gur-Ari 表示。計(jì)算機(jī)擅長(zhǎng)算術(shù)是不假,但在特定的模式之外,計(jì)算機(jī)就無(wú)能為力了,簡(jiǎn)單的文字描述題都回答不了。

谷歌研究員 Ethan Dyer 曾經(jīng)表示:做數(shù)學(xué)研究的人有一套僵化的推理系統(tǒng),對(duì)于他們熟知的和不了解的內(nèi)容,這兩者之間有著明顯的鴻溝。

解決文字問(wèn)題或定量推理問(wèn)題很棘手,因?yàn)椴煌谄渌麊?wèn)題,這兩者需要魯棒性和嚴(yán)謹(jǐn)性。如果過(guò)程中的任何一步出現(xiàn)錯(cuò)誤,將會(huì)導(dǎo)致錯(cuò)誤的答案。DALL·E 在繪畫(huà)方面令人印象深刻,盡管它生成的圖像有時(shí)會(huì)很奇怪,可能遺漏人的手指、眼睛長(zhǎng)得奇怪…… 這些我們都能接受,但是它在數(shù)學(xué)方面出現(xiàn)了錯(cuò)誤,我們的容忍度就會(huì)非常小。來(lái)自 OpenAI 的機(jī)器學(xué)習(xí)專(zhuān)家 Vineet Kosaraju 也曾表達(dá)過(guò)這種想法,「我們對(duì)語(yǔ)言模型所犯的數(shù)學(xué)錯(cuò)誤(比如將 10 誤解為 1 和 0,而不是 10)容忍性還是比較小的。」

「我們研究數(shù)學(xué)僅僅是因?yàn)槲覀儼l(fā)現(xiàn)它獨(dú)立且非常有趣,」OpenAI 機(jī)器學(xué)習(xí)專(zhuān)家 Karl Cobbe 說(shuō)。

隨著機(jī)器學(xué)習(xí)模型在更大的數(shù)據(jù)樣本上訓(xùn)練而成,它們的魯棒性更好、出錯(cuò)也更少。但擴(kuò)大模型規(guī)模似乎只能通過(guò)定量推理進(jìn)行。研究人員意識(shí)到,對(duì)于語(yǔ)言模型所犯的錯(cuò)誤似乎需要更有針對(duì)性的方法來(lái)解決。

去年,加州大學(xué)伯克利分校和 OpenAI 的兩個(gè)研究團(tuán)隊(duì)分別發(fā)布了數(shù)據(jù)集 MATH 和 GSM8K,這兩個(gè)數(shù)據(jù)集包含幾何、代數(shù)、初等數(shù)學(xué)等數(shù)千個(gè)數(shù)學(xué)問(wèn)題。「我們想看看這是否是數(shù)據(jù)集的問(wèn)題,」從事數(shù)學(xué)工作的 AI 安全中心研究員 Steven Basart 說(shuō)。眾所周知,語(yǔ)言模型不擅長(zhǎng)單詞問(wèn)題,在這個(gè)問(wèn)題上它們表現(xiàn)的有多糟糕,是否可以通過(guò)引入格式更好、更大的數(shù)據(jù)集來(lái)解決? 

在 MATH 數(shù)據(jù)集上,頂級(jí)語(yǔ)言模型的準(zhǔn)確率為 7%,而人類(lèi)研究生的準(zhǔn)確率為 40%,奧林匹克冠軍的準(zhǔn)確率為 90%。在 GSM8K 數(shù)據(jù)集上(小學(xué)級(jí)別的問(wèn)題),模型達(dá)到了 20% 的準(zhǔn)確率。實(shí)驗(yàn)中 OpenAI 使用了微調(diào)和驗(yàn)證這兩種技術(shù),結(jié)果表明模型可以看到很多自身錯(cuò)誤的例子,這一發(fā)現(xiàn)很有價(jià)值。

當(dāng)時(shí),OpenAI 的模型需要在 100 倍以上的數(shù)據(jù)上進(jìn)行訓(xùn)練,才能在 GSM8K 上達(dá)到 80% 的準(zhǔn)確率。但在今年 6 月,谷歌發(fā)布了 Minerva,達(dá)到 78% 的準(zhǔn)確率。這一結(jié)果超出了預(yù)期,研究者表示,比預(yù)想的時(shí)間來(lái)的更快。

圖片

論文地址:https://arxiv.org/pdf/2206.14858.pdf

Minerva 基于谷歌自研的 Pathways 語(yǔ)言模型 (PaLM),具有更多的數(shù)學(xué)數(shù)據(jù)集,包含 arXiv、 LaTeX 等數(shù)學(xué)格式。Minerva 還采用了其他策略,在思維鏈提示(chain-of-thought prompting)中,Minerva 將更大的問(wèn)題分解成小塊。此外,Minerva 還使用多數(shù)投票(majority voting),不是要求模型給出一個(gè)答案,而是要求它提出 100 種答案。在這些答案中,Minerva 選擇最常見(jiàn)的一種答案。

這些新策略的收益是巨大的,Minerva 在 MATH 上的準(zhǔn)確率高達(dá) 50%,在 GSM8K 以及 MMLU(包括化學(xué)和生物學(xué)在內(nèi)的一組更通用的 STEM 問(wèn)題)上的準(zhǔn)確率接近 80%。當(dāng) Minerva 被要求重做稍微調(diào)整過(guò)的問(wèn)題時(shí),它的表現(xiàn)同樣很好,這表明它的能力不僅僅是來(lái)自記憶。

Minerva 可能有奇怪、混亂的推理,但仍然得出正確的答案。盡管像 Minerva 這樣的模型可能會(huì)得出與人類(lèi)相同的答案,但它們所遵循的實(shí)際過(guò)程可能大不相同。

谷歌機(jī)器學(xué)習(xí)專(zhuān)家 Ethan Dyer 表示,「我認(rèn)為存在這樣一種觀念,即數(shù)學(xué)相關(guān)人士有一些嚴(yán)格的推理系統(tǒng),了解某事和不了解某事之間存在明顯的區(qū)別?!沟藗兘o出的答案不一致,會(huì)犯錯(cuò)誤,也無(wú)法應(yīng)用核心概念。在機(jī)器學(xué)習(xí)前沿中,邊界是模糊的。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-02-16 10:26:58

谷歌AI

2024-06-13 17:34:52

2011-07-22 09:42:52

谷歌ChromeLion

2025-04-09 11:01:19

2024-07-25 13:46:43

2023-05-12 12:43:49

開(kāi)源人工智能

2024-11-25 09:00:00

2024-07-29 14:39:39

2023-12-09 14:30:50

2023-04-09 16:17:05

ChatGPT人工智能

2024-07-24 11:38:07

2023-06-01 12:46:46

GPT-4數(shù)學(xué)OpenAI

2025-04-15 08:50:00

2023-03-06 15:24:54

谷歌人才

2025-04-21 09:15:00

2024-08-01 09:30:00

2023-03-31 08:11:04

2022-07-26 15:45:30

AI模型

2024-12-20 12:30:00

2024-10-17 14:15:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲三区视频 | 99re超碰 | 久久久久久久国产精品视频 | 国产精品视频一区二区三 | 99久久婷婷国产综合精品电影 | 亚洲三级视频 | pacopacomama在线 | 亚洲免费在线播放 | 久久99蜜桃综合影院免费观看 | 国产日韩欧美激情 | 午夜在线| 国产999精品久久久 午夜天堂精品久久久久 | 精品国产一级片 | 亚洲人成在线播放 | 国产精品美女 | 亚洲伊人a | 日韩精品一区二区三区 | av男人的天堂在线 | 91婷婷韩国欧美一区二区 | 国产精品久久久久久吹潮 | 免费观看黄| 日本不卡一区 | 日韩在线播放一区 | 日本黄色免费视频 | 一区二区成人 | 日韩欧美三级在线 | 日韩欧美电影在线 | 在线播放中文字幕 | 天天干天天操天天爽 | 国产在线一区二区三区 | 99精品免费视频 | а天堂中文最新一区二区三区 | 国产精品久久精品 | 天天操一操 | 日韩免费一区二区 | 亚洲一区电影 | 欧美一级大片免费看 | 成人在线视频免费观看 | 99精品电影 | 国产精品日韩一区二区 | 欧美日日|