Karpathy后悔了：2015年就看到了語言模型的潛力，卻搞了多年強(qiáng)化學(xué)習(xí)

作者：機(jī)器之心 2024-11-18 13:30:00

讓我們看看 Karpathy 那篇預(yù)言了如今大模型時代的文章，說了些什么。

「這是有史以來最大、最令人困惑的研究生涯錯誤，」Andrej Karpathy 感嘆道。

上個周末，OpenAI 創(chuàng)始成員、研究科學(xué)家、原特斯拉前 AI 高級總監(jiān)、AI 領(lǐng)域的大神 Andrej Karpathy 一直在后悔。后悔自己沒有早點帶領(lǐng) OpenAI 開創(chuàng)大模型時代。

是怎么一回事？看起來 Karpathy 認(rèn)為當(dāng)年早已認(rèn)識到自回歸語言模型的強(qiáng)大潛力，但卻在很長一段時間里「誤入歧途」，隨大溜一起搞強(qiáng)化學(xué)習(xí)。

2013 年的 Atari RL 論文被認(rèn)為是深度強(qiáng)化學(xué)習(xí)的開山之作：一個通用學(xué)習(xí)算法就發(fā)現(xiàn)了 Breakout 和許多其他游戲的最佳策略，看起來，在很多任務(wù)上我們只需要對其進(jìn)行足夠的改進(jìn)和擴(kuò)展，就可以構(gòu)建出強(qiáng)大的 AI 模型了。

我們也還記得，在 Karpathy 跳槽去到特斯拉一年后，2018 年 OpenAI 推出了 OpenAI Five，利用強(qiáng)化學(xué)習(xí)的方法在 Dota 2 游戲上開始與職業(yè)選手過招。

在 2019 年，OpenAI 的研究者還訓(xùn)練神經(jīng)網(wǎng)絡(luò)，利用一只類人機(jī)械手來玩魔方，表明強(qiáng)化學(xué)習(xí)工具不僅僅可以處理虛擬任務(wù)，而且還能夠解決需要高度靈活性的真實世界問題。

這個時候 OpenAI 在另一邊已經(jīng)推出「迄今為止最大模型」GPT-2 了，強(qiáng)化學(xué)習(xí)的盛世，似乎很快就被后來興起的大語言模型（LLM）所覆蓋。

Karpathy 還提到：「Yann LeCun 當(dāng)時就不太看好強(qiáng)化學(xué)習(xí)，他一遍又一遍地談?wù)摗旱案狻唬鴱?qiáng)化學(xué)習(xí)（RL）只是蛋糕頂部最后一顆櫻桃，表征學(xué)習(xí)是蛋糕主體，監(jiān)督學(xué)習(xí)是錦上添花。至少在今天看來，他在概念上是完全正確的（預(yù)訓(xùn)練 = 蛋糕主體，監(jiān)督微調(diào)（SFT）= 糖衣，RLHF = 櫻桃，即基本的 ChatGPT 訓(xùn)練 pipeline）。這很有趣，因為今天他仍然不太看好 LLM。」

說了這么多，如今已是「事后諸葛亮」了，當(dāng)初明明看好卻沒把握住，看起來比當(dāng)初根本沒想過這回事還讓人懊惱。

讓我們看看 Karpathy 那篇預(yù)言了如今大模型時代的文章，說了些什么。

Andrej Karpathy 當(dāng)初是怎么看好的

其實關(guān)于 RNN，Karpathy 早在 15 年就已經(jīng)注意到了。為此他還專門寫了一篇名為《RNN 的不合理有效性》文章。

文章深入探討了循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的潛力與實際應(yīng)用。文中提到了幾個實驗示例，包括使用 RNN 來生成類似莎士比亞作品的文本，以及模擬編程代碼和數(shù)學(xué)公式的生成。

Karpathy 用簡單易懂的語言介紹了 RNN。RNN 是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，它通過其循環(huán)連接能夠記住之前的信息，這對于時間序列數(shù)據(jù)或任何序列數(shù)據(jù)的處理尤為關(guān)鍵。

Karpathy 描述了使用 RNN 進(jìn)行圖像描述任務(wù)的初次嘗試，并分享了這一過程中的神奇體驗。他回憶稱，在使用 RNN 進(jìn)行訓(xùn)練后不久，即使是隨意選擇的超參數(shù)配置下，他的模型開始生成看起來非常不錯的圖像描述，這些描述接近于有意義。這種簡單模型與所獲得的結(jié)果質(zhì)量之間的比例，有時會遠(yuǎn)遠(yuǎn)超出預(yù)期，這讓人感到驚訝。

當(dāng)時的普遍看法認(rèn)為 RNN 難以訓(xùn)練，但 Karpathy 后來的經(jīng)驗卻讓他得出了相反的結(jié)論。隨著時間的推移，Karpathy 頻繁地訓(xùn)練 RNN，并多次見證了它們的強(qiáng)大和穩(wěn)健，盡管如此，這些網(wǎng)絡(luò)產(chǎn)生的有趣輸出仍然讓他感到新奇和有趣。

關(guān)于如何利用 RNN 逐字符生成文本的介紹，引發(fā)了對「這怎么可能？」這一問題的思考。

事實上，眾所周知，RNN 是圖靈完備的，因為它們可以模擬任意程序（具有適當(dāng)?shù)臋?quán)重）。但與神經(jīng)網(wǎng)絡(luò)的通用近似定理類似，你不應(yīng)該對此進(jìn)行過多的解讀。

如果訓(xùn)練普通神經(jīng)網(wǎng)絡(luò)是對函數(shù)的優(yōu)化，那么訓(xùn)練循環(huán)網(wǎng)絡(luò)就是對程序的優(yōu)化。

接下來，Karpathy 在博客中講解了 RNN 的基本工作原理，并通過一個具體的字符級語言模型應(yīng)用來說明其實際操作過程。

具體而言，Karpathy 為 RNN 提供一大段文本，并要求它根據(jù)前面的字符序列對序列中下一個字符的概率分布進(jìn)行建模。這樣，就可以一次一個字符地生成新文本。

假設(shè)詞匯表為 hello，這段訓(xùn)練數(shù)據(jù)可以被拆分為 4 個獨立的訓(xùn)練樣本：

基于 h 預(yù)測 e 的概率應(yīng)該較高。
基于 he 預(yù)測 l 的概率應(yīng)該較高。
基于 hel 預(yù)測 l 的概率應(yīng)該較高。
基于 hell 預(yù)測 o 的概率應(yīng)該較高。

每個字符會被編碼為一個向量，采用 1-of-k 編碼，即向量中只有一個位置為 1，其余位置為 0，然后使用 step 函數(shù)將它們逐個輸入到 RNN。接著會觀察到一個 4 維輸出向量序列（每個字符一維），并將其解釋為 RNN 當(dāng)前分配給序列中下一個字符的置信度。

接下來可以看到 RNN 的訓(xùn)練過程及其背后的邏輯：

在第一個 step 中，RNN 看到字符 h 后，預(yù)測下一個字符的概率分布如下：

h 的置信度為 1.0
e 的置信度為 2.2
l 的置信度為 - 3.0
o 的置信度為 4.1

但根據(jù)訓(xùn)練數(shù)據(jù) hello，正確的下一個字符應(yīng)該是 e。因此，需要提高 e 的置信度（綠色表示），同時降低其他字符的置信度（紅色表示）。

在這過程中，每個 step 都有一個期望的目標(biāo)字符。目標(biāo)是讓網(wǎng)絡(luò)對正確字符的置信度更高，而對錯誤字符的置信度更低。因此需要反向傳播算法計算每個權(quán)重的梯度。

根據(jù)梯度調(diào)整 RNN 的權(quán)重（參數(shù)），讓正確字符的置信度提高（例如 e 的置信度從 2.2 提高到 2.3）。錯誤字符的置信度則會相應(yīng)降低。

這一過程會重復(fù)多次，直到模型收斂。收斂后，RNN 的預(yù)測會與訓(xùn)練數(shù)據(jù)更加一致，即每一步都能夠正確預(yù)測下一個字符。

為了進(jìn)一步說明，出于教學(xué)目的，Karpathy 還用 Python/numpy 編寫了一個最小的字符級 RNN 語言模型。代碼大約只有 100 行。感興趣的讀者可以參考：

項目鏈接：https://gist.github.com/karpathy/d4dee566867f8291f086

更進(jìn)一步的，Karpathy 在這篇博客中還列舉了 5 個其他示例展示。所有示例字符模型都是在 Github 上發(fā)布的代碼進(jìn)行訓(xùn)練的。

項目鏈接：https://github.com/karpathy/char-rnn

我們以「莎士比亞」這個示例為例。

Karpathy 希望探索 RNN 是否能夠?qū)W習(xí)并生成具有更多結(jié)構(gòu)和風(fēng)格的文本內(nèi)容。為此，他下載了莎士比亞的所有作品，并將它們合并成一個 4.4MB 的文件，用作訓(xùn)練數(shù)據(jù)。

接著，Karpathy 使用了一個包含 3 層 RNN 的模型，每層有 512 個隱藏節(jié)點，訓(xùn)練這個模型耗費了數(shù)小時。最后，模型生成了一些文本樣本，包括角色名字和內(nèi)容對話，有時還能生成較長的獨白片段。

不過，從結(jié)果來看，盡管生成的文本看起來像莎士比亞的作品，但仍有一定的差異。Karpathy 認(rèn)為這些生成結(jié)果表現(xiàn)出了模型的能力和局限性，同時也展現(xiàn)了 RNN 在字符級語言建模上的潛力。

Karpathy 還列舉了如何生成嬰兒名字這種有趣的示例，感興趣的讀者可以參考原博客了解更多內(nèi)容。

隨后的故事我們都知道了，2017 年谷歌發(fā)布了 Transformer 論文，提出了自注意力機(jī)制。在這個基礎(chǔ)上，人們逐步探索出大模型的 Scaling Laws，將 AI 技術(shù)向通用化快速延伸，直到今天。

既然連 Andrej Karpathy 這樣的 AI 大佬也在研究方向上「走過彎路」，我們是不是也該回看一下過去？

責(zé)任編輯：張燕妮來源：機(jī)器之心

語言模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Karpathy后悔了：2015年就看到了語言模型的潛力，卻搞了多年強(qiáng)化學(xué)習(xí)

Andrej Karpathy 當(dāng)初是怎么看好的