成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌、OpenAI學(xué)者談AI：語(yǔ)言模型正在努力「攻克」數(shù)學(xué)

作者：機(jī)器之心 2022-11-01 13:52:44

人工智能新聞

AI 到底擅不擅長(zhǎng)數(shù)學(xué)，還得具體問(wèn)題具體分析。

如果問(wèn)計(jì)算機(jī)擅長(zhǎng)什么，在所有的答案里，數(shù)學(xué)必須榜上有名。在經(jīng)歷了漫長(zhǎng)的研究之后，頂尖學(xué)者們?cè)谘芯坑?jì)算機(jī)關(guān)于數(shù)學(xué)計(jì)算方面的發(fā)展，取得了令人驚訝的成績(jī)。

就拿去年來(lái)說(shuō)，來(lái)自加州大學(xué)伯克利分校、OpenAI 和 Google 的研究人員在語(yǔ)言模型方面取得了長(zhǎng)足的進(jìn)步，GPT-3、DALL·E 2 等被開(kāi)發(fā)出來(lái)。然而，直到現(xiàn)在，語(yǔ)言模型還無(wú)法解決一些簡(jiǎn)單的、用語(yǔ)言描述的數(shù)學(xué)問(wèn)題，例如「Alice 比 Bob 多五個(gè)球，Bob 在給 Charlie 四個(gè)球后有兩個(gè)球。問(wèn) Alice 有幾個(gè)球？」這對(duì)語(yǔ)言模型來(lái)說(shuō)，想要給出正確答案，可能就有點(diǎn)「吃力」了。

「當(dāng)我們說(shuō)計(jì)算機(jī)非常擅長(zhǎng)數(shù)學(xué)時(shí)，意思是它們非常擅長(zhǎng)特定的、具體的事情，」來(lái)自谷歌的機(jī)器學(xué)習(xí)專(zhuān)家 Guy Gur-Ari 表示。計(jì)算機(jī)擅長(zhǎng)算術(shù)是不假，但在特定的模式之外，計(jì)算機(jī)就無(wú)能為力了，簡(jiǎn)單的文字描述題都回答不了。

谷歌研究員 Ethan Dyer 曾經(jīng)表示：做數(shù)學(xué)研究的人有一套僵化的推理系統(tǒng)，對(duì)于他們熟知的和不了解的內(nèi)容，這兩者之間有著明顯的鴻溝。

解決文字問(wèn)題或定量推理問(wèn)題很棘手，因?yàn)椴煌谄渌麊?wèn)題，這兩者需要魯棒性和嚴(yán)謹(jǐn)性。如果過(guò)程中的任何一步出現(xiàn)錯(cuò)誤，將會(huì)導(dǎo)致錯(cuò)誤的答案。DALL·E 在繪畫(huà)方面令人印象深刻，盡管它生成的圖像有時(shí)會(huì)很奇怪，可能遺漏人的手指、眼睛長(zhǎng)得奇怪…… 這些我們都能接受，但是它在數(shù)學(xué)方面出現(xiàn)了錯(cuò)誤，我們的容忍度就會(huì)非常小。來(lái)自 OpenAI 的機(jī)器學(xué)習(xí)專(zhuān)家 Vineet Kosaraju 也曾表達(dá)過(guò)這種想法，「我們對(duì)語(yǔ)言模型所犯的數(shù)學(xué)錯(cuò)誤（比如將 10 誤解為 1 和 0，而不是 10）容忍性還是比較小的。」

「我們研究數(shù)學(xué)僅僅是因?yàn)槲覀儼l(fā)現(xiàn)它獨(dú)立且非常有趣，」OpenAI 機(jī)器學(xué)習(xí)專(zhuān)家 Karl Cobbe 說(shuō)。

隨著機(jī)器學(xué)習(xí)模型在更大的數(shù)據(jù)樣本上訓(xùn)練而成，它們的魯棒性更好、出錯(cuò)也更少。但擴(kuò)大模型規(guī)模似乎只能通過(guò)定量推理進(jìn)行。研究人員意識(shí)到，對(duì)于語(yǔ)言模型所犯的錯(cuò)誤似乎需要更有針對(duì)性的方法來(lái)解決。

去年，加州大學(xué)伯克利分校和 OpenAI 的兩個(gè)研究團(tuán)隊(duì)分別發(fā)布了數(shù)據(jù)集 MATH 和 GSM8K，這兩個(gè)數(shù)據(jù)集包含幾何、代數(shù)、初等數(shù)學(xué)等數(shù)千個(gè)數(shù)學(xué)問(wèn)題。「我們想看看這是否是數(shù)據(jù)集的問(wèn)題，」從事數(shù)學(xué)工作的 AI 安全中心研究員 Steven Basart 說(shuō)。眾所周知，語(yǔ)言模型不擅長(zhǎng)單詞問(wèn)題，在這個(gè)問(wèn)題上它們表現(xiàn)的有多糟糕，是否可以通過(guò)引入格式更好、更大的數(shù)據(jù)集來(lái)解決？

在 MATH 數(shù)據(jù)集上，頂級(jí)語(yǔ)言模型的準(zhǔn)確率為 7%，而人類(lèi)研究生的準(zhǔn)確率為 40%，奧林匹克冠軍的準(zhǔn)確率為 90%。在 GSM8K 數(shù)據(jù)集上（小學(xué)級(jí)別的問(wèn)題），模型達(dá)到了 20% 的準(zhǔn)確率。實(shí)驗(yàn)中 OpenAI 使用了微調(diào)和驗(yàn)證這兩種技術(shù)，結(jié)果表明模型可以看到很多自身錯(cuò)誤的例子，這一發(fā)現(xiàn)很有價(jià)值。

當(dāng)時(shí)，OpenAI 的模型需要在 100 倍以上的數(shù)據(jù)上進(jìn)行訓(xùn)練，才能在 GSM8K 上達(dá)到 80% 的準(zhǔn)確率。但在今年 6 月，谷歌發(fā)布了 Minerva，達(dá)到 78% 的準(zhǔn)確率。這一結(jié)果超出了預(yù)期，研究者表示，比預(yù)想的時(shí)間來(lái)的更快。

論文地址：https://arxiv.org/pdf/2206.14858.pdf

Minerva 基于谷歌自研的 Pathways 語(yǔ)言模型 (PaLM)，具有更多的數(shù)學(xué)數(shù)據(jù)集，包含 arXiv、 LaTeX 等數(shù)學(xué)格式。Minerva 還采用了其他策略，在思維鏈提示（chain-of-thought prompting）中，Minerva 將更大的問(wèn)題分解成小塊。此外，Minerva 還使用多數(shù)投票（majority voting），不是要求模型給出一個(gè)答案，而是要求它提出 100 種答案。在這些答案中，Minerva 選擇最常見(jiàn)的一種答案。

這些新策略的收益是巨大的，Minerva 在 MATH 上的準(zhǔn)確率高達(dá) 50%，在 GSM8K 以及 MMLU（包括化學(xué)和生物學(xué)在內(nèi)的一組更通用的 STEM 問(wèn)題）上的準(zhǔn)確率接近 80%。當(dāng) Minerva 被要求重做稍微調(diào)整過(guò)的問(wèn)題時(shí)，它的表現(xiàn)同樣很好，這表明它的能力不僅僅是來(lái)自記憶。

Minerva 可能有奇怪、混亂的推理，但仍然得出正確的答案。盡管像 Minerva 這樣的模型可能會(huì)得出與人類(lèi)相同的答案，但它們所遵循的實(shí)際過(guò)程可能大不相同。

谷歌機(jī)器學(xué)習(xí)專(zhuān)家 Ethan Dyer 表示，「我認(rèn)為存在這樣一種觀念，即數(shù)學(xué)相關(guān)人士有一些嚴(yán)格的推理系統(tǒng)，了解某事和不了解某事之間存在明顯的區(qū)別?！沟藗兘o出的答案不一致，會(huì)犯錯(cuò)誤，也無(wú)法應(yīng)用核心概念。在機(jī)器學(xué)習(xí)前沿中，邊界是模糊的。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 數(shù)學(xué)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：亚洲三区视频 | 99re超碰 | 久久久久久久国产精品视频 | 国产精品视频一区二区三 | 99久久婷婷国产综合精品电影 | 亚洲三级视频 | pacopacomama在线 | 亚洲免费在线播放 | 久久99蜜桃综合影院免费观看 | 国产日韩欧美激情 | 午夜在线| 国产999精品久久久午夜天堂精品久久久久 | 精品国产一级片 | 亚洲人成在线播放 | 国产精品美女 | 亚洲伊人a | 日韩精品一区二区三区 | av男人的天堂在线 | 91婷婷韩国欧美一区二区 | 国产精品久久久久久吹潮 | 免费观看黄| 日本不卡一区 | 日韩在线播放一区 | 日本黄色免费视频 | 一区二区成人 | 日韩欧美三级在线 | 日韩欧美电影在线 | 在线播放中文字幕 | 天天干天天操天天爽 | 国产在线一区二区三区 | 99精品免费视频 | а天堂中文最新一区二区三区 | 国产精品久久精品 | 天天操一操 | 日韩免费一区二区 | 亚洲一区电影 | 欧美一级大片免费看 | 成人在线视频免费观看 | 99精品电影 | 国产精品日韩一区二区 | 欧美日日|