馬斯克xAI首個研究成果發(fā)布！創(chuàng)始成員楊格&姚班校友共同一作

作者：西風(fēng) 2023-10-21 12:53:04

人工智能新聞

描述神經(jīng)網(wǎng)絡(luò)架構(gòu)的統(tǒng)一編程語言Tensor Programs——相關(guān)成果，在GPT-4中已有應(yīng)用。

馬斯克的xAI，首項(xiàng)公開研究成果來了！

共同一作之一，正是xAI創(chuàng)始成員、丘成桐弟子楊格（Greg Yang）。

此前，楊格就曾公開表示，自己在xAI的研究方向是“Math for AI”和“AI for Math”。

其中一項(xiàng)重點(diǎn)就是延續(xù)他此前的研究：

描述神經(jīng)網(wǎng)絡(luò)架構(gòu)的統(tǒng)一編程語言Tensor Programs——相關(guān)成果，在GPT-4中已有應(yīng)用。

這次的新論文，就歸屬該系列，重點(diǎn)探討了“如何訓(xùn)練無限深度網(wǎng)絡(luò)”。

為此，楊格本人還專門在??上進(jìn)行了一場直播分享。

一起來看看有哪些精彩內(nèi)容值得mark~

訓(xùn)練無限深度神經(jīng)網(wǎng)絡(luò)

簡單來說，這篇文章研究的是殘差網(wǎng)絡(luò)（ResNet）在深度方向的擴(kuò)展。

我們知道，殘差網(wǎng)絡(luò)解決了深度增加時，深度卷積神經(jīng)網(wǎng)絡(luò)性能退化的問題。但當(dāng)網(wǎng)絡(luò)繼續(xù)加深，訓(xùn)練一個好的深度殘差網(wǎng)絡(luò)仍非易事：

當(dāng)網(wǎng)絡(luò)加深時，特征的規(guī)模會不斷增大，導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定；加深網(wǎng)絡(luò)后，需要重新調(diào)整超參數(shù)，工作量不小……

楊格和他的小伙伴們的想法是，找到一種深度參數(shù)化方法，既可以學(xué)習(xí)特征，又可以實(shí)現(xiàn)超參數(shù)遷移。

他們首先想到了無限寬神經(jīng)網(wǎng)絡(luò)存在的兩種極限情況：要么是核機(jī)（kernel machines），要么是特征學(xué)習(xí)器(feature learners)。對于后者而言，最佳超參數(shù)是不會隨寬度變化而變化的。

在這里，他們使用Tensor Programs框架分析了無限寬網(wǎng)絡(luò)的極限情況。

正如前文提到的，Tensor Programs是楊格的一項(xiàng)長期研究目標(biāo)：用數(shù)學(xué)語言，建立能夠描述和分析神經(jīng)網(wǎng)絡(luò)架構(gòu)的底層編程語言。

具體而言，Tensor Programs由矩陣乘法和激活函數(shù)組成。楊格發(fā)現(xiàn)，如果神經(jīng)網(wǎng)絡(luò)函數(shù)能夠使用這種語言表達(dá)，就可以自動且完備地進(jìn)行初始化分析。

數(shù)學(xué)推導(dǎo)的部分，這里不做具體展開，我們可以淺淺感受一下畫風(fēng)……

在這些推導(dǎo)分析的基礎(chǔ)之上，作者提出了Depth-μP方法，可以實(shí)現(xiàn)深度方向上的超參數(shù)遷移，大大簡化了不同深度下的超參數(shù)調(diào)節(jié)。

Depth-μP包含以下要點(diǎn)：

每個殘差分支和深度L的平方根成反比的系數(shù)a/sqrt(L)。
每個權(quán)重矩陣的學(xué)習(xí)率隨深度L變大而減小，具體取決于優(yōu)化算法的類型。對于SGD，學(xué)習(xí)率取常數(shù)η，對于Adam等自適應(yīng)優(yōu)化算法，學(xué)習(xí)率取η/sqrt(L)。

值得關(guān)注的是，作者發(fā)現(xiàn)，當(dāng)殘差塊深度為1時，Depth-μP是深度參數(shù)化的最優(yōu)方式，可以保證超參數(shù)隨著深度的增加而收斂，實(shí)現(xiàn)深度方向的超參數(shù)傳遞。

但當(dāng)殘差塊深度≥2時，還是會出現(xiàn)超參數(shù)遷移失敗和訓(xùn)練性能下降的問題。

另外，論文還探討了“特征多樣性”的概念，認(rèn)為它在深度網(wǎng)絡(luò)中發(fā)揮著關(guān)鍵作用。

論文的另一位共同一作是來自普林斯頓的Dingli Yu。他本科畢業(yè)于清華姚班，目前在普林斯頓計(jì)算機(jī)科學(xué)系攻讀博士。

楊格在直播中都說了啥？

在直播中，楊格還就觀眾感興趣的問題進(jìn)行了解答。在不改變原意基礎(chǔ)上，量子位對部分問題做了梳理。

Q：對于我們許多人來說，（論文內(nèi)容）可能超出了我們的理解范圍。但我想知道，你提到的模型與我們能夠體驗(yàn)到的ChatGPT以及OpenAI的技術(shù)有何不同？這篇論文與OpenAI的成果相比有什么顯著的差異或是創(chuàng)新點(diǎn)？

楊格：我簡單評論一下，我想說這些特性目前與實(shí)際應(yīng)用并沒有直接關(guān)系，更像是研究性質(zhì)的。

當(dāng)然，做這一切的最終目標(biāo)是為了讓模型更好、更安全，然后造福人類。我們現(xiàn)在所進(jìn)行的是描述預(yù)期的效果，它不一定會有直接的影響。

現(xiàn)在我們同處一條船上，我們正在做我們所能做的事，無論是短期工作還是長期應(yīng)用研究，都是為了讓它造福每個人。

Q：聽起來像是你們正在建造一個能夠進(jìn)行推理的人工計(jì)算機(jī)大腦，所以這是你們正在研究的嗎？此外，我還是一位母親，我7歲的兒子對數(shù)學(xué)非常感興趣，你有什么可以讓他繼續(xù)對AI領(lǐng)域保持興趣和熱情的建議嗎？

楊格：“新型網(wǎng)絡(luò)”指的是人工神經(jīng)網(wǎng)絡(luò)，我認(rèn)為它是現(xiàn)代眾多技術(shù)的支柱，包括您每天使用的Google、Facebook、Instagram等，這些服務(wù)的底層都使用了這些人工神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)大約在六七十年前受到動物、人類的真實(shí)神經(jīng)網(wǎng)絡(luò)啟發(fā)而誕生，但已與真實(shí)的神經(jīng)科學(xué)有所偏離。

這些網(wǎng)絡(luò)本質(zhì)上是數(shù)學(xué)問題，因此我們掌握這些新的數(shù)學(xué)問題后進(jìn)行大量分析，可以深入地理解這些神經(jīng)網(wǎng)絡(luò)。

雖然我們尚不明確真正的神經(jīng)元的連接方式，但通過數(shù)學(xué)研究，我們能優(yōu)化這些人工神經(jīng)網(wǎng)絡(luò)，助力科技公司改善人們的生活。

關(guān)于您的第二個問題，聽說您的兒子對數(shù)學(xué)非常感興趣，這太棒了。這是在技術(shù)領(lǐng)域創(chuàng)造偉大成就和改善每個人生活的基礎(chǔ)。

我想給的建議是，首先您要保持您兒子對數(shù)學(xué)的熱情，這非常重要。一旦失去了這份熱愛，想再繼續(xù)學(xué)習(xí)就會變得很困難。

還要注意觀察他喜歡的東西，讓學(xué)習(xí)過程變得有趣，進(jìn)一步激發(fā)他的興趣。同時，也要培養(yǎng)他對事物運(yùn)作原理的好奇心，并嘗試培養(yǎng)一種科學(xué)思維，要在好奇心的驅(qū)使下研究。就像拆解事物，嘗試?yán)斫馑鼈兊墓ぷ髟怼?/p>

如果一個人失去了對宇宙數(shù)學(xué)真理的探索熱情，可能很難再有前進(jìn)的動力。總的來說，我建議您培養(yǎng)您兒子對這個世界，特別是對數(shù)學(xué)和科學(xué)本質(zhì)的濃厚興趣和好奇心。

Q：我有一個更為抽象的問題。你有了深度趨近于無窮的想法，然后根據(jù)這種想法寫了這篇論文。那你是否考慮過采用不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)？不是帶有神經(jīng)元和無數(shù)層的標(biāo)準(zhǔn)架構(gòu)，而是完全不同的東西。比如這些神經(jīng)元的連接方式完全不同，也許是某種正方形？

楊格：其實(shí)關(guān)于非線性以及我們這項(xiàng)工作中對層數(shù)的洞察，都只是非常初級的研究。關(guān)于什么是合適的結(jié)構(gòu)，或者應(yīng)該是怎樣的結(jié)構(gòu)，當(dāng)然還有很多可以探討的問題。

像Meta團(tuán)隊(duì)之前就研究了隨機(jī)連接神經(jīng)元會發(fā)生什么，得到了一些有趣的結(jié)果。所以，這里絕對還有很多可以做的事情。現(xiàn)在我確實(shí)沒有具體的答案來說什么將是正確的或者更好的結(jié)構(gòu)。