成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Karpathy新教程爆火,網友搶著送他H100:從頭復現GPT-2訓練

人工智能
網絡結構是GPT-2,但許多超參數設置遵循了GPT-3的那一套。Karpathy分析,按照Chinchilla定律的標準,GPT-2在100B tokens上訓練應該屬于過度訓練了,后面收益遞減,124M模型按計算2.5Btokens就夠。

大神Karpathy已經不滿足于用C語言造Llama了!

他給自己的最新挑戰:復現OpenAI經典成果,從基礎版GPT-2開始。

挑戰成功本身并不意外,但是只花費20美元、90分鐘完成訓練,Loss和評測還超越原版,就!有!點!過!分!了!。

圖片

不僅如此,他把復現過程寫成了完整教程,果不其然再次火爆。

圖片

由于Karpathy自己租用的是A100云服務,訓練124M版本花費20了美元。

不過有人按照教程用H100跑了一把,不僅訓練時間更短,還更省錢了:43分鐘完成,只花14美元。

圖片

另外Karpathy還自掏腰包200美元,為大家復現了350M版本的GPT-2。

但1.5B大杯版,照計算要花1周時間和2500美元,有點玩不起了,主要他手里也沒有H100。

圖片

還好各路卡壕非常仗義,該出手時就出手:

有需要隨時給你用!

圖片

只收你2美元一小時!

圖片

90分鐘復現GPT-2

這次Karpathy復現GPT-2,還是基于他的llama.c代碼庫,端到端完成訓練。

代碼庫這些日子被他不斷完善,現在啟動訓練非常簡單:

圖片

具體來說,網絡結構是GPT-2,但許多超參數設置遵循了GPT-3的那一套。

Karpathy分析,按照Chinchilla定律的標準,GPT-2在100B tokens上訓練應該屬于過度訓練了,后面收益遞減,124M模型按計算2.5Btokens就夠。

不過他自己訓練了10B tokens,訓練數據也用剛剛發布不久FineWeb,比起OpenAI原版WebText數據集token質量更高。

原版WebText從未公開,無法在控制變量在相同條件下實驗,另外今天的互聯網數據分布,也可能與5年前大不相同了。

據推測,評測分數比原版更高的原因可能就在這些差別了。

圖片

另外有網友注意到,訓練時的GPU利用效率也比OpenAI的工作高,不過Karpathy表示主要是由于用了單個云服務節點,不需要考慮服務器間通信問題。

圖片

最后,對于已訓練完的350M版本GPT-2,同樣取得了超越原版的成績。

圖片

掌聲響起來~

大神也不是那么卷

自今年二月份再次從OpenAI辭職之后,Karpathy已經用C語言搞出不少大模型成果,從Llama到GPT玩了一遍。

觀察他的GitHub熱力圖,只有剛開始休息了一段時間,進入4月以后就越來越卷了。

圖片

這是辭職在家還要997的節奏?

其實Karpathy這段時間也旅游過,也分享過在打的游戲,并沒那么卷。

圖片

根據他曬出的一周時間表:在職時975,離職后工作4-20小時不等,看心情。

  • 周一工作4小時,
  • 周二工作14小時到晚上11點
  • 周三失眠了,4點爬起來寫代碼,到中午崩潰
  • 周四干了20小時
  • 周五休息
  • 周六12小時
  • 周日4小時
  • 然后出去旅游兩周。

圖片

大家看到這里也比較好奇,是規律的安排感覺更好,還是隨心所欲能有奇效呢?

Karpathy自己也不確定,不過混亂的日程安排肯定更有趣。

圖片

最后他還分享了一條自由職業心得:

起床后直接開始工作,不看任何消息,吃完午飯再上網,避免外界信息分散注意力。

圖片

有條件的朋友可以試試了。

教程:https://github.com/karpathy/llm.c/discussions/481。

參考鏈接:
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。

責任編輯:姜華 來源: 量子位
相關推薦

2024-06-11 08:37:00

2024-04-11 12:47:37

AI模型

2024-11-21 14:30:00

模型訓練

2024-02-21 14:07:00

2024-03-27 13:31:00

模型AI

2024-07-12 12:46:03

2024-06-12 13:27:58

2023-08-06 13:01:34

AI開發

2024-02-22 09:51:56

代碼AI

2024-02-22 07:29:31

OpenAIKarpathy分詞器

2025-01-20 07:30:00

2023-08-13 07:44:18

GPU模型英偉達

2023-06-05 14:04:59

模型AI

2023-11-21 09:14:33

微軟Azure AI

2024-06-11 07:03:00

大模型開源Qwen2

2021-03-23 15:21:00

人工智能機器學習技術

2024-02-26 13:53:00

AI訓練

2024-01-19 12:34:39

2023-07-31 21:34:53

Agents英偉達模型

2024-07-03 17:15:39

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久无码av | 伊人精品在线视频 | 日韩一区二区三区精品 | www.天天操.com| 欧美极品在线视频 | 国产视频精品在线 | 91精品国产高清一区二区三区 | 国产精品黄 | 久久久久久久久久久高潮一区二区 | 成人免费精品视频 | 国产日韩欧美在线观看 | 日韩视频中文字幕 | 日韩成人在线观看 | 九九热这里只有精品6 | 亚洲视频在线看 | 一区二区三区四区电影视频在线观看 | 久久99蜜桃综合影院免费观看 | 欧美一二三 | 日韩在线一区视频 | 激情网五月天 | 欧美日韩在线一区二区 | 久久久久无码国产精品一区 | 免费看大片bbbb欧美 | 理论片87福利理论电影 | 亚洲在线免费观看 | 欧美日韩国产一区 | 久久亚洲国产精品 | 日韩高清av| 中文成人在线 | 福利社午夜影院 | 久热久草| 亚洲电影免费 | 国产免费拔擦拔擦8x高清 | 两性午夜视频 | 狠狠综合久久av一区二区老牛 | 成人免费精品视频 | 亚洲日本激情 | 天天夜夜操 | 亚洲黄色视屏 | 久久精品综合 | 欧美激情视频一区二区三区在线播放 |