成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

秘密打造「AI陶哲軒」 震驚數學圈!谷歌IMO夢之隊首曝光,菲爾茲獎得主深度點評

人工智能 新聞
19秒破解幾何難題,谷歌AI奪得IMO銀牌在業界掀起了巨震。就連菲爾茲獎得主陶哲軒,前IMO美國隊負責人羅博深都對此大加贊賞。更有AI大佬高調預測,若谷歌繼續加碼研究,應該可以造出一個「AI陶哲軒」。

谷歌DeepMind正在做的,是要打造出世界上最強的AI數學家。

圖片

Perplexity AI的CEO對此做出了大膽預測——DeepMind繼續研究下去的話,應該可以搞出一個「AI陶哲軒」了!

圖片

這個預測可謂相當大膽。

要知道,陶哲軒在IMO競賽圈,乃至整個數學界,都是傳奇般的存在。

圖片

「天才出少年」、「數學界莫扎特」,各種溢美之詞放到他身上都不為過,畢竟人家首次參加IMO競賽時只有10歲,是迄今為止最年輕的參賽者。

10歲銅牌、11歲銀牌、12歲金牌,一路高歌猛進,他又成為了IMO史上最年輕的金牌得主。

圖片

AI大佬能夠做出此類預測,正是基于谷歌DeepMind兩大AI——AlphaProof+AlphaGeometry 2,上周在IMO 2024競賽中取得了卓越的成績。

6道題目中,它們一同做對4道,距金牌僅有一分之差(獲得28分)。

圖片

AlphaGeometry 2效果愈加炸裂,竟可以在短短19秒里,破解了一道幾何題目。

圖片

圖片

然而,這個消息至今余波未平。許多AI界和數學界的大佬們,紛紛給出了自己的思考和感悟。

數學大佬怎么看?

這邊隔空被cue的陶哲軒發表了自己的看法。

但人家并不在意所謂的「AI陶哲軒」,而是延續了自己以往的關注點——分析AI和數學將怎樣共同發展。

圖片

過去幾周我一直在旅行,還沒有時間完全消化這個消息……但可以在此記錄一些初步印象

陶哲軒首先承認,DeepMind做出了一項偉大的工作,拓寬了AI輔助/全自動化方法在基準挑戰上的能力邊界,再次顛覆了我們的預期。

具體而言,IMO級別的幾何問題,對專門的AI工具來說已經是實際可解的問題。

現在看來,能夠形式化的,且可以用強化學習過程找到形式化證明的IMO問題,至少在某種程度上都可以被AI攻克(盡管目前每個問題都需要相當程度的算力,以及形式化過程中的人類協助)。

這種方法帶來的好處,就是讓形式數學更容易自動化,從而有助于包含形式化成分(formal components)的數學研究。

特別是,如果用這種方式創建一個含有形式化證明過程的數據庫,并將其公開共享,將成為非常有用的資源。

圖片

DeepMind這次的研發路徑很聰明,而且事后看來也很合理。他們更多基于強化學習而非大語言模型,有些秉承了AlphaGo的精神,并且非常強調形式化方法。

根據「AI效應」,一旦解釋清楚其中的原理,AI就不再像是「類人智慧」的展現,但這依舊擴展了AI輔助工具的能力。

圖片

「AI效應」描述一種現象:一旦AI項目取得了某些成功或進展,相關任務就不再被視為AI領域的一部分。類似的還有Tesler定理:「AI是指尚未完成的事情」

值得注意的是,AlphaProof/AlphaGeometry 2與最近獲得AIMO冠軍的NuminaMath模型,二者不能直接比較。

圖片

NuminaMath是完全自動化的,資源效率相比DeepMind模型高了搞幾個數量級,而且采用了完全不同的思路,即通過LLM生成Python代碼,對數字答案進行暴力破解。

由于AIMO所有問題答案都是范圍為0~999的整數,因此暴力破解是可行的,但對開放式的IMO賽題就完全不適用了。

NuminaMath也是一項非常好的工作,在數學解題的不同部分中嘗試用AI協助或自動化,向我們展示了這個挑戰本身的多維性質。

目前,NuminaMath這個冠軍模型已經在HuggingFace上開源了7B版本。

圖片

倉庫地址:https://huggingface.co/AI-MO/NuminaMath-7B-TIR

與IMO打過多年交道的CMU數學教授羅博深(Po-Shen Loh)也發推表達了自己的震撼。用他的話說,這種感受和當年人們看到蘇聯第一顆人造衛星Sputnik的感覺是類似的。

他甚至表示,「人類文明需要進入高度戒備狀態」。羅博深本人雖然一直期待這種水平的AI能夠到來,但他曾經認為,至少還需要幾年時間才能達到。

圖片

羅博深教授的「震撼」,不僅來自于他數學家的身份,更來自于他對IMO競賽的多年了解。

1999年,時年17歲的他首次參與IMO競賽獲得銀牌,2002年就進入美國IMO國家隊訓練營擔任助理教練,開啟了自己長達21年的IMO執教生涯。

圖片

2014年,羅博深被正式任命為總教練,隨后帶領美國隊分別在2015年、2016年、2018年和2019年贏得比賽,讓1994年后將近20年沒有冠軍的美國IMO國家隊「重回巔峰」。

由于多年執教,羅博深對競賽的出題流程非常熟悉——IMO會專門選擇非標準化問題。

出題小組的重要任務之一就是避免任何類似題目。教練們甚至會翻出一些古老又不為人知的數學競賽,然后否決掉已經提出的類似題目。

這種題目的創新性讓很多人類學生都很難上手,因為學生們也習慣于從例題中學習,記住解題步驟,用來解決相似題目。

以本屆IMO的6道題目為例,它們遠遠超出了任何課程標準。

圖片

解決這些題目最困難的部分不在于計算,而是需要找到一條解題路徑。很多人即使有一整年的時間思考也只能拿到零分。

因此,DeepMind模型在IMO上的勝利和GPT-4在標準化測試上通過「模式匹配」拿到的高分有完全不同的意義。

盡管AI花費的時間遠遠超出比賽規定,但實現軟硬件的加速只是時間問題,模型能夠解決這些問題本身就是一個重大進步。

羅博深教授長期致力于數學教育,因此他也會進一步思考——AI具有如此強大的數學能力,這對我們意味著什么?我們能做些什么?

他認為,AI越強大,大幅提升人類智慧就越為重要。

首先就是對就業動態產生的影響。

AI出現以前,個別有非凡能力的人不會真正損害你的就業,因為這樣的人終究只是少數。即使這些天之驕子會占據一些職位,余下的工作依舊很多。

然而,一旦AI的能力超越人類,它就可以通過大規模復制,從而奪走所有工作。這與之前的邏輯完全不同。

AlphaProof/AlphaGeometry 2在IMO中的表現已經告訴我們,AI具備了發現新事物的能力(這是最有價值的技能之一),因此整個教育方法都需要快速變革。

無法否認的是,當前的教育結構很大程度上受到考試的影響,為了測試學生在預定義標準上的熟練程度。

然而,現在的每個人都必須學會如何解決從未見過的新問題,否則就無法跟上AI的步伐。

此外,技術越強大,我們就越需要努力保持人類文明中的人性。

這意味著,我們需要建立一個讓人們共同合作、互相支持的社區,而不是在「叢林競爭」中互相爭斗。分裂則亡。

對我來說,這與構建人類的分析性才能密切相關,因為培養一個試圖擊敗他人而非幫助他人的天才,很可能是有害的。

以上這些觀點并非羅博深教授的「紙上談兵」,也不僅僅停留在提出問題或理念的層面。基于數學教育領域十多年的工作經驗,他對此有深入的思考,并試圖提出了啟發性的解決方案。

在谷歌DeepMind倫敦總部的實驗室,研究團隊在慶祝每次AI里程碑時,內部承襲著一個傳統——敲響大鑼。

2016年,AlphaGo在圍棋比賽中表現優異,鑼聲響起;2017年,當AlphaZero征服國際象棋時,鑼聲再次回蕩。

每次一敲鑼,都代表著算法擊敗了人類冠軍。

就在AlphaProof+AlphaGeometry 2奪得了奧賽IMO 2024銀牌的那天,倫敦總部再次敲響了銅鑼。

圖片

紐約時報的這篇報道深入團隊內部,讓我們對這位AI數學家有了更深一層的了解。

文章表示,AI越來越擅長數學,并且很快就會成為人類最值得合作的伙伴。

圖片

DeepMind數學計劃負責人之一Alex Davies表示,這是AI在數學推理方面,取得的重大突破。

7月11日-22日,IMO 2024在倫敦以西約100英里的巴斯大學舉行,被公認為是世界上「最聰明的數學天才」參加的頂級數學競賽。

圖片

人類選手(來自108個國家的609名高中生)贏得了58枚金牌、123枚銀牌和145枚銅牌。

谷歌AI在答題的過程中,解決了6個問題中的四個,總得分28分,與金牌僅差一分。

對此,谷歌DeepMind研究副總裁Pushmeet Kohli在接受采訪時表示,「這并不完美,我們沒有解決所有問題。我們的目標是做到完美」。

圖片

盡管如此,Kohli博士將這一結果描述為一種「相變」(phase transition),一種革命性的變化,即在數學中使用AI,以及AI系統進行數學運算的能力。

DeepMind實驗室邀請了2位獨立專家,來評判AI的表現——劍橋大學數學家、菲爾茲獎得主Timothy Gowers,以及軟件開發人員Joseph Myers。

圖片

他們都曾是IMO競賽獲獎者,紛紛表示對這次AI的表現印象深刻。

過去25年來,Gowers一直對AI與數學結合感興趣,他認為,「AI已經找到了解決問題的神奇鑰匙」。

銅鑼敲響

每年IMO,人類選手們都要經過幾個月的嚴格訓練,去參加兩場奧數考試(共9小時)。

每天僅需做答三題,涉及了代數、組合學、幾何和數論。

與此同時,AI數學家也在倫敦實驗室里,埋頭苦干。

研究科學家David Silver說,「每次系統解決一個問題,我們就敲鑼慶祝」。

IMO結果公布那天,中國隊中的Haojia Shi是唯一一位獲得滿分(42分)的參賽者,6道題目分別拿了7分滿分成績。

圖片

總榜成績中,美國隊以192分獲得第一名,中國以190分獲得第二名。

圖片

這邊,谷歌AI成功破解了4道題——2道代數題、1道幾何題和1道數論題,得分28分。它在另外兩個組合學問題上,失敗了。

與人類選手不同的是,AI答題完全不限時間。

對于某些問題,AI需要長達三天的時間,而學生在每場考試中僅有4.5小時。

Silver博士解釋道,「對于谷歌DeepMind團隊來說,速度是整體成功的次要因素。因為這實際上只是取決于算力的投入」。

圖片

他繼續稱,「我們能夠達到這個閾值,能夠解決這些問題,這代表了數學史上的一個重大變化。但也希望能成為一個轉折點,讓計算機從只能證明簡單問題,到證明人類無法證明的問題」。

兩大團隊,兩個AI數學家

幾年來,將AI應用于數學一直是DeepMind使命的一部分,而且通常是與世界級的研究數學家合作。

Davies博士表示,數學需要抽象、精確和創造性推理的有趣結合。

他指出,部分原因是這種能力組合,使數學成為達到所謂的AGI這一最終目標的良好試金石,而且這也是OpenAI、Meta AI、Xai等公司一直在追逐的目標。

因此,奧林匹克數學題已成為公認的一個基準。

今年年初,谷歌DeepMind首次發布AlphaGeometry,解決了奧林匹克抽樣的幾何問題,水平相當于人類金牌獲獎者。

圖片

論文地址:https://www.nature.com/articles/s41586-023-06747-5

首席研究員Thang Luong在電子郵件中表示,AlphaGeometry2在解決IMO問題上已經超過了金牌得主。

圖片

借著這股勢頭,谷歌DeepMind為這項挑戰組建了兩個團隊:

一個由倫敦的研究工程師Thomas Hubert領導,另一個團隊由位于美國Mountain View實驗室的Luong博士和Quoc Le領導,每個團隊約有20名研究人員。

Luong博士領導的團隊名為「超人類推理團隊」,目前為止招募了十幾名IMO獎牌獲得者。

圖片

谷歌DeepMind超人類推理團隊(superhuman reasoning team)

他自豪地表示,這是目前為止,谷歌內部「IMO密度最高」的團隊。

圖片

大約20年前,我全身心投入奧數競賽,在全國獲得銀牌(當時排名第8),但我沒能進入2005年的 IMO比賽.....,時光荏苒,我非常高興谷歌最新的AI系統(AlphaGeometry2+AlphaProof)幫我實現了「贏得」IMO獎牌的夢想!

時隔半年,谷歌推出迭代后的AlphaGeometry 2,僅用了19秒,解決了IMO 2024的幾何問題。

另一波在倫敦總部的團隊,由Hubert領隊,開發了全新模型AlphaProof。它具有可比性,更加通用,目標是為了解決更廣泛的數學問題。

背后算法揭秘

簡言之,AlphaGeometry和AlphaProof利用了多種不同的AI技術。

非形式推理系統

AlphaProof是用自然語言表達的非形式推理系統(informal reasoning system)。

它基于谷歌Gemini打造,使用已公開的問題、證明等英文語料庫作為訓練數據。

非形式系統擅長識別模式,以及提出下一步建議。而且它富有創造性,以一種自然語言可以理解的方式談論想法。

當然,LLM傾向于編造內容,這對詩歌可能行得通(也可能不是),但對數學肯定不行。

在數學這種情況下,大模型似乎表現出了克制。但這并不是說,它完全免疫于「幻覺」,但頻率有所降低。

圖片

形式推理系統

AlphaGeometry是基于邏輯并用代碼表達的形式推理系統。

它使用了名為Lean的定理證明器和證明助手軟件。該軟件可以確保,如果AI認為證明是正確的,那么它確實是正確的。

Hubert表示,「我們可以準確地檢查證明是否正確,因為每一步都保證在邏輯上是合理的」。

而另一個關鍵組件是,AlphaGo和AlphaZero譜系中的強化學習算法。

谷歌DeepMind負責強化學習的副總裁Silver博士說,「AI可以自主學習,無限擴展」。

「由于RL算法不需要要老師,所以它可以不斷地學習,一直學習,直到最終它能夠解決人類可以解決的最困難的問題」。


這也是AlphaZero所經歷的現實,從0開始學習,僅通過玩游戲,在不到一天時間內,就能重新發現國際象棋中的所有知識。

在大約一周的時間,它便發現了圍棋的所有知識。所以我們想,把這個AI能力應用到數學中。


數學家,會被AI取代嗎?

菲爾茲獎得主Gowers并不擔心AI數學家,帶來的長期后果。

我們可以假想這樣一種情況,數學家基本上沒有什么可做的了。如果計算機在數學家目前做的所有事情上都變得更好、更快,那就會是這種情況。

不過,在AI能夠進行研究級數學之前,似乎還有很長的路要。

他補充道,「如果谷歌DeepMind能至少解決一些棘手的IMO問題,那么一個有用的研究工具就不會太遙遠」。

而一個真正熟練的AI工具,可能會讓數學更容易上手,加速研究過程,還能讓數學家跳出固有思維。

最終,它甚至可能提出引起共鳴的新奇想法。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-08 11:31:57

AI數據

2024-04-09 09:44:21

數學模型

2024-06-05 12:45:02

2024-07-16 13:23:23

2024-07-29 08:49:00

AI數學

2025-06-16 09:07:00

2025-06-23 08:45:00

2023-12-06 13:44:00

模型訓練

2023-09-04 13:16:00

人工智能模型

2022-07-06 14:39:35

數學研究

2024-08-08 13:40:00

2025-06-03 08:15:00

2024-08-29 13:50:00

AI數學

2024-02-26 08:30:00

2024-04-23 13:39:39

2024-07-08 13:08:04

2024-01-18 11:34:34

AI數學

2023-11-28 15:44:38

模型訓練

2023-10-10 13:51:46

GPT-4GitHubAI

2023-10-28 13:18:05

AI工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线日韩福利 | 男人天堂999 | 欧美精品网站 | 蜜桃五月天 | 在线日韩av电影 | 国产精品中文字幕一区二区三区 | 久久综合一区 | 中文字幕乱码视频32 | 久久久不卡网国产精品一区 | 色综合色综合网色综合 | 欧美一级欧美一级在线播放 | 午夜影晥 | 久久九精品 | 色婷婷精品国产一区二区三区 | 精品欧美一区二区久久久伦 | 午夜专区 | 免费在线看黄视频 | 国产精品久久精品 | 91深夜福利视频 | 欧美精品在线观看 | 福利成人 | 国产成人叼嘿视频在线观看 | 麻豆久久久9性大片 | 亚洲精品一区中文字幕乱码 | 成人欧美一区二区三区黑人孕妇 | 日本三级视频 | 综合久久一区 | 日本在线视 | 久久69精品久久久久久久电影好 | 国产精品久久久久久久一区探花 | 国产精品久久一区二区三区 | 国产精品99久久久久久动医院 | 91 在线 | va精品 | 久久久国产一区二区三区 | 国产乱码精品1区2区3区 | 中文字幕人成乱码在线观看 | www.久久久| 久久国产精品久久久久 | 精品久久久久久久久久久久久久久久久 | 精品一级 |