全面了解大語(yǔ)言模型,這有一份閱讀清單
大型語(yǔ)言模型已經(jīng)引起了公眾的注意,短短五年內(nèi),Transforme等模型幾乎完全改變了自然語(yǔ)言處理領(lǐng)域。此外,它們還開始在計(jì)算機(jī)視覺和計(jì)算生物學(xué)等領(lǐng)域引發(fā)革命。
鑒于Transformers對(duì)每個(gè)人的研究進(jìn)程都有如此大的影響,本文將為大家介紹一個(gè)簡(jiǎn)短的閱讀清單,供機(jī)器學(xué)習(xí)研究人員和從業(yè)者入門使用。
下面的列表主要是按時(shí)間順序展開的,主要是一些學(xué)術(shù)研究論文。當(dāng)然,還有許多其他有用的資源。例如:
- Jay Alammar撰寫的《The Illustrated Transformer》
- Lilian Weng撰寫的《The Transformer Family》
- Xavier Amatriain撰寫的《Transformer models: an introduction and catalog — 2023 Edition》
- Andrej Karpathy寫的nanoGPT庫(kù)
對(duì)主要架構(gòu)和任務(wù)的理解
如果你是Transformers、大型語(yǔ)言模型新手,那么這幾篇文章最適合你。
論文1:《Neural Machine Translation by Jointly Learning to Align and Translate》?
論文地址:https://arxiv.org/pdf/1409.0473.pdf
本文引入了一種循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)注意力機(jī)制,提高了模型遠(yuǎn)程序列建模能力。這使得RNN能夠更準(zhǔn)確地翻譯較長(zhǎng)的句子——這也是后來(lái)開發(fā)原始Transformer架構(gòu)的動(dòng)機(jī)。
圖源: https://arxiv.org/abs/1409.0473
論文2:《Attention Is All You Need》?
論文地址:https://arxiv.org/abs/1706.03762
本文介紹了由編碼器和解碼器組成的原始Transformer架構(gòu),這些部分將在以后作為單獨(dú)模塊進(jìn)行相關(guān)介紹。此外,本文還介紹了縮放點(diǎn)積注意力機(jī)制、多頭注意力塊和位置輸入編碼等概念,這些概念仍然是現(xiàn)代Transformer的基礎(chǔ)。
圖源:https://arxiv.org/abs/1706.03762
論文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》?
論文地址:https://arxiv.org/abs/1810.04805
大型語(yǔ)言模型研究遵循最初的Transformer架構(gòu),然后開始向兩個(gè)方向延伸:用于預(yù)測(cè)建模任務(wù)(如文本分類)的Transformer和用于生成建模任務(wù)(如翻譯、摘要和其他形式的文本創(chuàng)建)的Transformer 。
BERT論文介紹了掩碼語(yǔ)言建模原始概念,如果你對(duì)這個(gè)研究分支感興趣,那么可以跟進(jìn)RoBERTa,其簡(jiǎn)化了預(yù)訓(xùn)練目標(biāo)。
圖源:https://arxiv.org/abs/1810.04805
論文4:《Improving Language Understanding by Generative Pre-Training》
論文地址:https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035
最初的GPT論文介紹了流行的解碼器風(fēng)格的架構(gòu)和通過下一個(gè)單詞預(yù)測(cè)進(jìn)行預(yù)訓(xùn)練。BERT由于其掩碼語(yǔ)言模型預(yù)訓(xùn)練目標(biāo),可以被認(rèn)為是一個(gè)雙向Transformer,而GPT是一個(gè)單向自回歸模型。雖然GPT嵌入也可以用于分類,但GPT方法是當(dāng)今最有影響力的LLMs(如ChatGPT)的核心。
如果你對(duì)這個(gè)研究分支感興趣,那么可以跟進(jìn)GPT-2和GPT-3的論文。此外,本文將在后面單獨(dú)介紹InstructGPT方法。
論文5:《BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》
論文地址 https://arxiv.org/abs/1910.13461.
如上所述, BERT型編碼器風(fēng)格的LLM通常是預(yù)測(cè)建模任務(wù)的首選,而GPT型解碼器風(fēng)格的LLM更擅長(zhǎng)生成文本。為了兩全其美,上面的BART論文結(jié)合了編碼器和解碼器部分。
擴(kuò)展定律與效率提升
如果你想了解更多關(guān)于提高Transformer效率的技術(shù),可以參考以下論文
- 論文1:《A Survey on Efficient Training of Transformers》?
- 論文地址:https://arxiv.org/abs/2302.01107?
- 論文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
- 論文地址:?https://arxiv.org/abs/2205.14135?
- 論文3:《Cramming: Training a Language Model on a Single GPU in One Day》
- 論文地址:https://arxiv.org/abs/2212.14034
- 論文4:《Training Compute-Optimal Large Language Models》
- 論文地址:https://arxiv.org/abs/2203.15556
此外,還有論文《Training Compute-Optimal Large Language Models》
論文地址:https://arxiv.org/abs/2203.15556
本文介紹了700億參數(shù)的Chinchilla模型,該模型在生成建模任務(wù)上優(yōu)于流行的1750億參數(shù)的GPT-3模型。然而,它的主要點(diǎn)睛之處在于,當(dāng)代大型語(yǔ)言模型訓(xùn)練嚴(yán)重不足。
本文定義了用于大型語(yǔ)言模型訓(xùn)練的線性scaling law。例如,雖然Chinchilla的大小只有GPT-3的一半,但它的表現(xiàn)優(yōu)于GPT-3,因?yàn)樗窃?.4萬(wàn)億(而不是3000億)token上進(jìn)行訓(xùn)練的。換句話說(shuō),訓(xùn)練token的數(shù)量和模型大小一樣重要。
對(duì)齊——將大型語(yǔ)言模型朝著預(yù)期的目標(biāo)和興趣引導(dǎo)
近年來(lái)出現(xiàn)了許多相對(duì)強(qiáng)大的大型語(yǔ)言模型,它們可以生成真實(shí)的文本(例如GPT-3和Chinchilla)。就常用的預(yù)訓(xùn)練范式而言,目前似乎已經(jīng)達(dá)到了一個(gè)上限。
為了使語(yǔ)言模型更能幫助到人類,減少錯(cuò)誤信息和不良語(yǔ)言,研究人員設(shè)計(jì)了額外的訓(xùn)練范式來(lái)微調(diào)預(yù)訓(xùn)練的基礎(chǔ)模型,包括如下論文。
- 論文1:《Training Language Models to Follow Instructions with Human Feedback》
- 論文地址:https://arxiv.org/abs/2203.02155
在這篇所謂的InstructGPT論文中,研究人員使用了RLHF(Reinforcement Learning from Human Feedback)。他們從預(yù)訓(xùn)練的GPT-3基礎(chǔ)模型開始,并使用監(jiān)督學(xué)習(xí)對(duì)人類生成的提示響應(yīng)對(duì)進(jìn)行進(jìn)一步微調(diào)(步驟1)。接下來(lái),他們要求人類對(duì)模型輸出進(jìn)行排序以訓(xùn)練獎(jiǎng)勵(lì)模型(步驟2)。最后,他們使用獎(jiǎng)勵(lì)模型通過近端策略優(yōu)化(步驟3)使用強(qiáng)化學(xué)習(xí)來(lái)更新預(yù)訓(xùn)練和微調(diào)的GPT-3模型。
順便說(shuō)一句,這篇論文也被稱為描述ChatGPT背后思想的論文——根據(jù)最近的傳言,ChatGPT是InstructGPT的擴(kuò)展版本,它在更大的數(shù)據(jù)集上進(jìn)行了微調(diào)。
- 論文2:《Constitutional AI: Harmlessness from AI Feedback》
- 論文地址:https://arxiv.org/abs/2212.08073
在這篇論文中,研究人員進(jìn)一步推進(jìn)了對(duì)齊的想法,提出了一種創(chuàng)建「harmless」的AI系統(tǒng)的訓(xùn)練機(jī)制。研究人員提出了一種基于規(guī)則列表(由人類提供)的自訓(xùn)練機(jī)制,而不是直接由人類監(jiān)督。與上面提到的InstructGPT論文類似,所提出的方法使用了強(qiáng)化學(xué)習(xí)方法。
總結(jié)?
本文對(duì)上方表單的排列盡量保持簡(jiǎn)潔美觀,建議重點(diǎn)關(guān)注前10篇論文,以了解當(dāng)代大型語(yǔ)言模型背后的設(shè)計(jì)、局限和演變。
如果想深入閱讀,建議參考上述論文中的參考文獻(xiàn)?;蛘?,這里有一些額外的資源,供讀者進(jìn)一步研究:
GPT的開源替代方案
- 論文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
- 論文地址:https://arxiv.org/abs/2211.05100
- 論文2:《OPT: Open Pre-trained Transformer Language Models》
- 論文地址:https://arxiv.org/abs/2205.01068
ChatGPT的替代方案
- 論文1《LaMDA: Language Models for Dialog Applications》
- 論文地址:https://arxiv.org/abs/2201.08239
- 論文2:《Improving alignment of dialogue agents via targeted human judgements》
- 論文地址:https://arxiv.org/abs/2209.14375
- 論文3:《BlenderBot 3: a deployed conversational agent that continually learns to responsibly engage》
- 論文地址:https://arxiv.org/abs/2208.03188
計(jì)算生物學(xué)中的大型語(yǔ)言模型
- 論文1:《 ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning 》
- 論文地址:https://arxiv.org/abs/2007.06225
- 論文2:《Highly accurate protein structure prediction with AlphaFold》
- 論文地址:https://www.nature.com/articles/s41586-021-03819-2
- 論文3:《Large Language Models Generate Functional Protein Sequences Across Diverse Families》
- 論文地址:https://www.nature.com/articles/s41587-022-01618-2