《Python 機器學習》作者新作:從頭開始構建大型語言模型,代碼已開源
自 ChatGPT 發布以來,大型語言模型(LLM)已經成為推動人工智能發展的關鍵技術。
近期,機器學習和 AI 研究員、暢銷書《Python 機器學習》作者 Sebastian Raschka 又寫了一本新書 ——《Build a Large Language Model (From Scratch)》,旨在講解從頭開始構建大型語言模型的整個過程,包括如何創建、訓練和調整大型語言模型。
最近,Sebastian Raschka 在 GitHub 上開源了這本新書對應的代碼庫。
項目地址:https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file
對 LLM 來說,指令微調能夠有效提升模型性能,因此各種指令微調方法陸續被提出。Sebastian Raschka 發推重點介紹了項目中關于指令微調的部分,其中講解了:
- 如何將數據格式化為 1100 指令 - 響應對;
- 如何應用 prompt-style 模板;
- 如何使用掩碼。
《Build a Large Language Model (From Scratch)》用清晰的文字、圖表和示例解釋每個階段,從最初的設計和創建,到采用通用語料庫進行預訓練,一直到針對特定任務進行微調。
具體來說,新書和項目講解了如何:
- 規劃和編碼 LLM 的所有部分;
- 準備適合 LLM 訓練的數據集;
- 使用自己的數據微調 LLM;
- 應用指令調整方法來確保 LLM 遵循指令;
- 將預訓練權重加載到 LLM 中。
作者介紹
個人主頁:https://sebastianraschka.com/
Sebastian Raschka 是一名機器學習和人工智能研究員,曾在威斯康星大學麥迪遜分校擔任統計學助理教授,專門研究深度學習和機器學習。他讓關于 AI 和深度學習相關的內容更加容易獲得,并教人們如何大規模利用這些技術。
此外,Sebastian 熱衷于開源軟件,十多年來一直是一個充滿熱情的開源貢獻者。他提出的方法現已成功應用于 Kaggle 等機器學習競賽。
除了編寫代碼,Sebastian 還喜歡寫作,并撰寫了暢銷書《Python Machine Learning》(《Python 機器學習》)和《Machine Learning with PyTorch and ScikitLearn》。