本科生60行代碼教你手搓GPT大模型，技術介紹堪比教程

作者：機器之心 2023-02-27 09:29:05

GPT 模型實現起來有時也很簡單。

當前，大型語言模型（LLM）被認為是人工智能突破的方向。人們正在嘗試用它們做各種復雜的事情，比如問答、創作、數學推理以及編寫代碼等。近段時間 ChatGPT 持續的爆火是最好的例證。

然而，對于機器學習從業者來說，大模型的門檻很高：因為體量太大難以訓練，很長時間里這個方向一直被大公司壟斷。不過最近，簡化 GPT 模型的方法越來越多了。1 月中旬，前特斯拉 AI 高級總監 Andrej Karpathy（現已回歸 OpenAI）就發布了??從零開始構建 GPT 模型的完整教程???。不過訓練出的 GPT 和 OpenAI 的 GPT-3 比較，兩者規模差距達 1 萬 - 100 萬倍。

近日，加拿大麥克馬斯特大學的一位軟件工程本科生 Jay Mody 在導入 NumPy 庫下，僅用 60 行代碼就從頭實現了一個 GPT 模型，并將其命名為 PicoGPT。不僅如此，他還將經過訓練的 GPT-2 模型權重加載到自己的實現中，并生成了一些文本。下面為 60 行代碼展示。

不過要做到這些，你需要熟悉 Python 和 NumPy，還要有一些訓練神經網絡的基本經驗。作者表示，這篇博客旨在對 GPT 進行簡單易懂的完整介紹。因此，作者只使用已經訓練的模型權重來實現前向傳遞代碼。

代碼地址：

?https://github.com/jaymody/picoGPT/blob/29e78cc52b58ed2c1c483ffea2eb46ff6bdec785/gpt2_pico.py#L3-L58?

對于此項研究，Andrej Karpathy 給出了四個字：雖遲但到。想當初，Karpathy 構建的 minGPT 和 nanoGPT 還要 300 行代碼。

值得一提的是，這篇教程不是完全零門檻的。為了讓讀者明白，作者首先介紹了什么是 GPT、它的輸入、輸出如何等其他內容，介紹得都非常詳細。

至于 GPT 到底能干什么，作者給出了幾個示例，它能寫電子郵件、總結一本書、給你 instagram 標題的想法、向 5 歲的孩子解釋黑洞、用 SQL 編寫代碼等。

通過仔細閱讀這部分內容后，你能大致了解 GPT 的一些基礎知識。有了這些背景介紹，接下來就是如何設置了。

項目介紹

設置

這一章節主要介紹了如何設置編碼器、超參數以及參數。

你要做的，首先是克隆代碼庫：

然后安裝依賴項：

注意，如果你使用的是 M1 Macbook，在運行 pip install 之前，你需要在 requirements.txt 中將 tensorflow 更改為 tensorflow-macos。在這個項目下，文件包括 encoder.py、utils.py、gpt2.py、gpt2_pico.py：