成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

馬斯克xAI首個研究成果發(fā)布!創(chuàng)始成員楊格&姚班校友共同一作

人工智能 新聞
描述神經(jīng)網(wǎng)絡(luò)架構(gòu)的統(tǒng)一編程語言Tensor Programs——相關(guān)成果,在GPT-4中已有應(yīng)用。

馬斯克的xAI,首項(xiàng)公開研究成果來了!

共同一作之一,正是xAI創(chuàng)始成員、丘成桐弟子楊格(Greg Yang)。

此前,楊格就曾公開表示,自己在xAI的研究方向是“Math for AI”和“AI for Math”。

其中一項(xiàng)重點(diǎn)就是延續(xù)他此前的研究:

描述神經(jīng)網(wǎng)絡(luò)架構(gòu)的統(tǒng)一編程語言Tensor Programs——相關(guān)成果,在GPT-4中已有應(yīng)用

這次的新論文,就歸屬該系列,重點(diǎn)探討了“如何訓(xùn)練無限深度網(wǎng)絡(luò)”。

圖片

為此,楊格本人還專門在??上進(jìn)行了一場直播分享。

一起來看看有哪些精彩內(nèi)容值得mark~

訓(xùn)練無限深度神經(jīng)網(wǎng)絡(luò)

簡單來說,這篇文章研究的是殘差網(wǎng)絡(luò)(ResNet)在深度方向的擴(kuò)展。

我們知道,殘差網(wǎng)絡(luò)解決了深度增加時,深度卷積神經(jīng)網(wǎng)絡(luò)性能退化的問題。但當(dāng)網(wǎng)絡(luò)繼續(xù)加深,訓(xùn)練一個好的深度殘差網(wǎng)絡(luò)仍非易事:

當(dāng)網(wǎng)絡(luò)加深時,特征的規(guī)模會不斷增大,導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定;加深網(wǎng)絡(luò)后,需要重新調(diào)整超參數(shù),工作量不小……

楊格和他的小伙伴們的想法是,找到一種深度參數(shù)化方法,既可以學(xué)習(xí)特征,又可以實(shí)現(xiàn)超參數(shù)遷移。

他們首先想到了無限寬神經(jīng)網(wǎng)絡(luò)存在的兩種極限情況:要么是核機(jī)(kernel machines),要么是特征學(xué)習(xí)器(feature learners)。對于后者而言,最佳超參數(shù)是不會隨寬度變化而變化的。

圖片

在這里,他們使用Tensor Programs框架分析了無限寬網(wǎng)絡(luò)的極限情況。

正如前文提到的,Tensor Programs是楊格的一項(xiàng)長期研究目標(biāo):用數(shù)學(xué)語言,建立能夠描述和分析神經(jīng)網(wǎng)絡(luò)架構(gòu)的底層編程語言

圖片

具體而言,Tensor Programs由矩陣乘法和激活函數(shù)組成。楊格發(fā)現(xiàn),如果神經(jīng)網(wǎng)絡(luò)函數(shù)能夠使用這種語言表達(dá),就可以自動且完備地進(jìn)行初始化分析。

數(shù)學(xué)推導(dǎo)的部分,這里不做具體展開,我們可以淺淺感受一下畫風(fēng)……

圖片

在這些推導(dǎo)分析的基礎(chǔ)之上,作者提出了Depth-μP方法,可以實(shí)現(xiàn)深度方向上的超參數(shù)遷移,大大簡化了不同深度下的超參數(shù)調(diào)節(jié)。

Depth-μP包含以下要點(diǎn):

  • 每個殘差分支和深度L的平方根成反比的系數(shù)a/sqrt(L)。
  • 每個權(quán)重矩陣的學(xué)習(xí)率隨深度L變大而減小,具體取決于優(yōu)化算法的類型。對于SGD,學(xué)習(xí)率取常數(shù)η,對于Adam等自適應(yīng)優(yōu)化算法,學(xué)習(xí)率取η/sqrt(L)。

值得關(guān)注的是,作者發(fā)現(xiàn),當(dāng)殘差塊深度為1時,Depth-μP是深度參數(shù)化的最優(yōu)方式,可以保證超參數(shù)隨著深度的增加而收斂,實(shí)現(xiàn)深度方向的超參數(shù)傳遞。

圖片

但當(dāng)殘差塊深度≥2時,還是會出現(xiàn)超參數(shù)遷移失敗和訓(xùn)練性能下降的問題。

圖片

另外,論文還探討了“特征多樣性”的概念,認(rèn)為它在深度網(wǎng)絡(luò)中發(fā)揮著關(guān)鍵作用。

論文的另一位共同一作是來自普林斯頓的Dingli Yu。他本科畢業(yè)于清華姚班,目前在普林斯頓計(jì)算機(jī)科學(xué)系攻讀博士。

楊格在直播中都說了啥?

在直播中,楊格還就觀眾感興趣的問題進(jìn)行了解答。在不改變原意基礎(chǔ)上,量子位對部分問題做了梳理。

Q:對于我們許多人來說,(論文內(nèi)容)可能超出了我們的理解范圍。但我想知道,你提到的模型與我們能夠體驗(yàn)到的ChatGPT以及OpenAI的技術(shù)有何不同?這篇論文與OpenAI的成果相比有什么顯著的差異或是創(chuàng)新點(diǎn)?

楊格:我簡單評論一下,我想說這些特性目前與實(shí)際應(yīng)用并沒有直接關(guān)系,更像是研究性質(zhì)的。

當(dāng)然,做這一切的最終目標(biāo)是為了讓模型更好、更安全,然后造福人類。我們現(xiàn)在所進(jìn)行的是描述預(yù)期的效果,它不一定會有直接的影響。

現(xiàn)在我們同處一條船上,我們正在做我們所能做的事,無論是短期工作還是長期應(yīng)用研究,都是為了讓它造福每個人。

Q:聽起來像是你們正在建造一個能夠進(jìn)行推理的人工計(jì)算機(jī)大腦,所以這是你們正在研究的嗎?此外,我還是一位母親,我7歲的兒子對數(shù)學(xué)非常感興趣,你有什么可以讓他繼續(xù)對AI領(lǐng)域保持興趣和熱情的建議嗎?

楊格:“新型網(wǎng)絡(luò)”指的是人工神經(jīng)網(wǎng)絡(luò),我認(rèn)為它是現(xiàn)代眾多技術(shù)的支柱,包括您每天使用的Google、Facebook、Instagram等,這些服務(wù)的底層都使用了這些人工神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)大約在六七十年前受到動物、人類的真實(shí)神經(jīng)網(wǎng)絡(luò)啟發(fā)而誕生,但已與真實(shí)的神經(jīng)科學(xué)有所偏離。

這些網(wǎng)絡(luò)本質(zhì)上是數(shù)學(xué)問題,因此我們掌握這些新的數(shù)學(xué)問題后進(jìn)行大量分析,可以深入地理解這些神經(jīng)網(wǎng)絡(luò)。

雖然我們尚不明確真正的神經(jīng)元的連接方式,但通過數(shù)學(xué)研究,我們能優(yōu)化這些人工神經(jīng)網(wǎng)絡(luò),助力科技公司改善人們的生活。

關(guān)于您的第二個問題,聽說您的兒子對數(shù)學(xué)非常感興趣,這太棒了。這是在技術(shù)領(lǐng)域創(chuàng)造偉大成就和改善每個人生活的基礎(chǔ)。

我想給的建議是,首先您要保持您兒子對數(shù)學(xué)的熱情,這非常重要。一旦失去了這份熱愛,想再繼續(xù)學(xué)習(xí)就會變得很困難。

還要注意觀察他喜歡的東西,讓學(xué)習(xí)過程變得有趣,進(jìn)一步激發(fā)他的興趣。同時,也要培養(yǎng)他對事物運(yùn)作原理的好奇心,并嘗試培養(yǎng)一種科學(xué)思維,要在好奇心的驅(qū)使下研究。就像拆解事物,嘗試?yán)斫馑鼈兊墓ぷ髟怼?/p>

如果一個人失去了對宇宙數(shù)學(xué)真理的探索熱情,可能很難再有前進(jìn)的動力。總的來說,我建議您培養(yǎng)您兒子對這個世界,特別是對數(shù)學(xué)和科學(xué)本質(zhì)的濃厚興趣和好奇心。

Q:我有一個更為抽象的問題。你有了深度趨近于無窮的想法,然后根據(jù)這種想法寫了這篇論文。那你是否考慮過采用不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)?不是帶有神經(jīng)元和無數(shù)層的標(biāo)準(zhǔn)架構(gòu),而是完全不同的東西。比如這些神經(jīng)元的連接方式完全不同,也許是某種正方形?

楊格:其實(shí)關(guān)于非線性以及我們這項(xiàng)工作中對層數(shù)的洞察,都只是非常初級的研究。關(guān)于什么是合適的結(jié)構(gòu),或者應(yīng)該是怎樣的結(jié)構(gòu),當(dāng)然還有很多可以探討的問題。

像Meta團(tuán)隊(duì)之前就研究了隨機(jī)連接神經(jīng)元會發(fā)生什么,得到了一些有趣的結(jié)果。所以,這里絕對還有很多可以做的事情。現(xiàn)在我確實(shí)沒有具體的答案來說什么將是正確的或者更好的結(jié)構(gòu)。

關(guān)于楊格

楊格出生于湖南省,小學(xué)畢業(yè)后去了美國,本科就讀于哈佛師從丘成桐教授。

圖片

△楊格與丘成桐,圖源:楊格推特

2017年,楊格哈佛畢業(yè),之后在沈向洋引薦下進(jìn)入微軟。

在微軟,楊格獲得了沈向洋的高度評價。幾個月前,在一場名為“基礎(chǔ)科學(xué)與人工智能”的論壇上,沈向洋公開表示:

微軟研究院平時只招博士生的,楊格作為一個本科畢業(yè)生進(jìn)了微軟研究院。不僅進(jìn)了微軟研究院,過去這五年還做得無比優(yōu)秀,特別是在GPT發(fā)展過程中做了舉足輕重的貢獻(xiàn)。

值得一提的是,他本人也曾承認(rèn)GPT-4就用到了他的μTransfer(Tensor Programs系列)方法。

而楊格對Tensor Programs的研究,從很早就開始了,2019年就發(fā)表了“Tensor Programs I”,在微軟工作時也是持續(xù)深入探索。他認(rèn)為深度學(xué)習(xí)中幾乎任何計(jì)算都可以表示為Tensor Programs。

今年7月,馬斯克宣布成立新公司xAI,楊格離開微軟,加入xAI創(chuàng)始團(tuán)隊(duì),成為xAI的數(shù)學(xué)家。

加入xAI后,楊格不止一次透露Tensor Programs項(xiàng)目長期目標(biāo)是開發(fā)大規(guī)模深度學(xué)習(xí)的“萬物理論”,也就是找到一種理論上的規(guī)則,可以真正理解AI大模型的行為

他還表示:

AI將使每個人都能以此前難以想象的方式理解我們的數(shù)學(xué)宇宙。

論文鏈接:https://arxiv.org/abs/2310.02244

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-06 12:34:14

模型訓(xùn)練

2023-07-13 12:57:08

2023-07-14 10:13:23

馬斯克AI

2023-07-17 06:35:37

2023-08-05 12:51:14

馬斯克AI

2023-11-06 09:25:00

馬斯克模型

2025-02-19 10:28:22

2024-11-28 14:46:00

2024-06-12 11:54:21

2025-02-11 11:19:52

2025-02-10 08:15:00

2025-02-24 13:00:00

2024-07-19 10:36:21

2024-12-02 13:30:00

2025-03-31 00:07:45

2023-12-25 09:07:50

AI人工智能Ferret

2023-11-06 13:44:34

2025-01-16 09:20:00

AI論文模型

2014-12-15 09:57:43

綠色網(wǎng)格綠色數(shù)據(jù)中心

2022-01-23 10:53:47

星鏈互聯(lián)網(wǎng)衛(wèi)星
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线观看av网站永久 | 黑人一级片视频 | 夜夜夜久久久 | 啪视频在线 | 国产中文 | 国产视频二区 | 亚洲国产一区二区在线 | 国产丝袜av | 久久毛片 | 日韩第一区 | 亚洲在线一区二区三区 | 亚洲欧美日韩在线不卡 | 成人一区二区三区 | 久久性av | 少妇久久久久 | 一区二区三区播放 | 亚洲在线一区 | av中文字幕在线 | 国产日韩久久 | 国产精品美女久久久久aⅴ国产馆 | 国产视频中文字幕 | 亚洲 欧美 另类 综合 偷拍 | 国产福利91精品一区二区三区 | 久久久精品影院 | 天天操操操操操 | 国产偷录叫床高潮录音 | 成人午夜视频在线观看 | 日韩欧美视频 | 亚洲欧美一区二区三区1000 | 亚洲三区视频 | 一区二区在线免费观看视频 | 免费能直接在线观看黄的视频 | 国产91网站在线观看 | 欧美日本一区二区 | 欧美一区二区三区视频在线播放 | 国产一级片一区二区三区 | 欧美一级视频 | 中文字幕一区二区三区在线观看 | 一区二区三区四区免费在线观看 | 亚洲一区中文字幕 | 国产精品影视在线观看 |