大神卡帕西拿DeepSeek R1講強化學習!最新大模型內部機制視頻爆火,“沒有技術背景也能看懂”
宣布全職搞教育的AI大神Andrej Karpathy(卡帕西),新年第一課來了——
發布三個半小時視頻課,深入解析了ChatGPT等大語言模型的內部工作機制,其中涵蓋模型開發的完整訓練過程、如何在實際應用中最有效地使用它們,還有AI未來發展趨勢。
卡帕西強調,這次是為大眾準備的,即使沒有技術背景也能看懂!
他在視頻中深入淺出用大量具體示例,如GPT-2、Llama 3.1等,完整講述了大模型的原理。
當紅炸子雞DeepSeek也沒落下,成為一大重點。
卡帕西課程的含金量無需多言,剛一發就被網友團團圍住,熬夜也要看的那種。
網友們表示,接下來三個半小時就這樣過了:
你知道,Karpathy發布新視頻,一整天都會變得非常美好,每個視頻都是金礦!
機器學習工程師Rohan Paul看后也表示其中有關于ChatGPT內部工作機制最簡潔明了的解釋。
話不多說了,以下是重點知識點,文末有完整視頻~
重點一覽
用過類似ChatGPT等工具的人可能都會有這樣的疑問:
這個文本框背后是什么?你可以在里面輸入任何內容并按回車,但我們應該輸入什么?這些生成的詞又是什么意思?這一切是如何工作的?你究竟在與什么交流?
卡帕西在視頻中詳細解答了這些問題。
他從如何構建這樣一個LLM展開,詳細講解了所有階段:
- 預訓練:數據、分詞、Transformer神經網絡的輸入/輸出及內部機制、推理、GPT-2訓練示例、Llama 3.1基礎推理示例。
- 監督微調:對話數據、“LLM心理學”:幻覺、工具使用、知識/工作記憶、自我認知、模型需要token來思考、拼寫、參差不齊的智力。
- 強化學習:熟能生巧、DeepSeek-R1、AlphaGo、基于人類反饋的強化學習(RLHF)。
預訓練
首先是預訓練階段,使模型擁有豐富的知識。
預訓練的第一步是下載和處理互聯網數據。目標是從互聯網的公開資源中獲取大量且種類多樣的文本、高質量文檔,例如FineWeb。
第二步是文本提取。
爬蟲獲取的是網頁的原始HTML代碼,需要過濾和處理提取出網頁文本,去除導航和無關內容。
還要進行語言過濾,例如只保留英語占比超過65%的網頁,不同公司會根據需求決定保留的語言種類,如果過濾掉所有的西班牙語,那么模型之后在西班牙語上的表現就可能不會很好。
之后,還會進行去重、移除個人身份信息等進一步的過濾步驟,最終得到大規模的文本數據,進入訓練集。
接下來要做的是在這些數據上訓練神經網絡。在將文本輸入神經網絡之前,需要將文本轉換為一維符號序列。
通過字節對編碼(BPE)算法,將常見的字節組合成新符號,從而減少序列長度并增加符號詞匯量。tokenization是將文本轉換為符號序列的過程,不同的輸入文本會根據tokenization規則生成不同的符號序列。
訓練神經網絡時,從數據集中隨機抽取token作為輸入,并預測下一個token。神經網絡的輸出是下一個token出現的概率分布。
通過訓練過程不斷更新網絡參數,使預測結果與實際數據的統計模式一致。
神經網絡內部是一個復雜的數學表達式,輸入token序列與網絡參數混合,經過多層變換后輸出預測結果。現代神經網絡結構,如Transformer,具有大量參數和復雜的內部結構,但本質上是通過優化參數來使預測結果與訓練數據匹配。
訓練過程需要強大的計算資源支持,依賴高性能GPU集群,這些硬件能夠高效處理大規模并行計算任務,加速模型的訓練和優化。隨著技術的發展,訓練成本逐漸降低,但大規模模型的訓練仍然需要大量的計算資源投入。
卡帕西在視頻中以GPT-2為例討論了訓練,包括其參數、上下文長度和訓練成本。
之后他又以Llama 3為例討論了基礎語言模型的屬性,它可以生成類似于互聯網文檔的token序列,并將知識存儲在其參數中。
然而,模型的輸出具有隨機性,每次生成的結果可能不同,且模型可能會過度記憶訓練數據中的某些內容,導致輸出與訓練數據高度相似,甚至直接復述某些條目。
這種現象在實際應用中可能會帶來問題,例如模型可能無法區分事實和虛假信息,因為它只是基于訓練數據的統計規律進行生成。
預訓練階段,模型通過大量互聯網文檔數據學習生成文本的能力,輸出為基礎模型,它能夠生成與互聯網文檔統計特性相似的token序列,但本身并不是一個能夠回答問題的“助手”。
所以還需要后訓練。
后訓練
在后訓練階段,模型通過學習人類標注的對話數據來調整其行為,從而能夠生成符合人類期望的回答。數據集規模較小,訓練時間也相對較短。
早期的對話數據集(如InstructGPT)主要由人類標注人員手工創建,但隨著技術的發展,現代的對話數據集越來越多地利用現有的語言模型來生成初始回答,然后由人類進行編輯和優化。這些數據集可能包含數百萬條對話,覆蓋廣泛的主題和領域。
具體來說,后訓練包括監督微調(SFT)和強化學習(RL)。
在監督微調階段,模型通過創建對話數據集,學習如何與人類進行多輪對話。
例如,OpenAI的InstructGPT論文詳細介紹了如何通過人類標注者創建對話數據集。
強化學習階段,目的是讓模型通過實踐和試錯來發現解決問題的最佳方法。
卡帕西用人類在學校學習的過程類比。預訓練相當于閱讀課本中的背景知識,微調相當于學習專家提供的解題方法,而強化學習則相當于通過練習題來鞏固知識,自己探索解題步驟。
具體來說,模型會嘗試多種不同的解題方法,這些方法可能來自不同的prompt。之后評估解決方案,檢查每個解決方案是否正確。正確的解決方案會被標記為“好”,錯誤的解決方案會被標記為“壞”。
模型會根據正確答案的解決方案進行訓練,強化那些能夠得到正確答案的解決方案。這類似于學生在練習中發現有效的方法后,會更多地使用這些方法。
強化學習和人類標注相比,人類標注者在創建訓練數據時,很難知道哪種解決方案最適合模型。人類標注者可能會注入模型不理解的知識,或者忽略模型已有的知識,導致模型難以理解。而強化學習讓模型通過試錯來自主發現適合自己的解決方案。
模型會嘗試多種路徑,找到能夠可靠地達到正確答案的解決方案。
卡帕西用具體示例討論了強化學習在大語言模型中的應用及其重要性,特別是DeepSeek最近發布的論文引發了公眾對這一領域的關注。
他還講了人類反饋的強化學習(RLHF)工作原理及其優缺點。
最后卡帕西提到了多模態模型的發展,模型能夠將音頻、圖像和文本轉化為tokens,并在同一個模型中同時處理。
這種多模態能力將使模型能夠進行更自然的交互,例如理解語音指令、處理圖像內容等。
目前局限性在于,模型執行任務時,通常是被動地接收任務并完成,無法像人類那樣在長時間內持續、連貫地執行復雜任務。
未來可能會出現能夠持續執行任務的Agent,可以在長時間內執行任務,并定期向人類報告進度。人類將成為這些Agent的監督者。
感興趣的童鞋來看完整視頻:
持續專注于教育的AI大牛
卡帕西曾任特斯拉AI主管,之后去了OpenAI,去年2月從OpenAI離職。
他在整個AI屆擁有超高人氣,很大一部分來自于他的課程。
包括他自己的早期博客文字分享和后來的一系列Youtube視頻教程,他還與李飛飛合作開設的的斯坦福大學首個深度學習課程CS231n《卷積神經網絡與視覺識別》。
今天不少學者和創業者,都是跟著他入門的。
卡帕西對教育的熱情,甚至可以追溯到學生時期在網上教大家玩魔方。
去年7月,從OpenAI離職的卡帕西突然官宣創業,搞了一家AI原生的新型學校——Eureka Labs。
怎么理解AI原生?
想象一下與費曼一起學習高質量教材,費曼會在每一步中1對1指導你。
不幸的是,即使每個學科都能找到一位像費曼這樣的大師,他們也無法分身親自輔導地球上的80億人。
但AI可以,而且AI有無限的耐心,精通世界上所有的語言。
所以卡帕西要打造“教師+人工智能的共生”,可以在一個通用平臺上運行整個課程。
如果我們成功了,任何人都將易于學習任何東西,擴大教育這個概念本身的“范圍”和“程度”。
目前在EurekaLabs的官方GitHub賬號上也有相關課程了,手把手帶你構建一個類似ChatGPT的故事生成大模型,感興趣的童鞋可以去一睹為快。
視頻鏈接:https://www.youtube.com/watch?v=7kVfqmGtDL8