大語言模型的進化樹，這是一份超詳細ChatGPT「食用」指南

作者：機器之心 2023-04-28 15:41:08

人工智能新聞

ChatGPT 引發的輿論熱潮至今仍未消退，以其為代表的大型語言模型（LLM）正是目前自然語言處理領域的研究熱點，同時其在機器翻譯、文本生成和聊天機器人等方面的應用也讓實踐者們躍躍欲試，期望找到新的應用和商業機會。

而在實際探索的過程中，實踐者可能會苦于尋找適合自己應用的 AI 模型：是選擇 LLM 還是微調模型？如果用 LLM，又該選擇哪一種？

近日，來自亞馬遜、德州農工大學、萊斯大學等機構的學者對 ChatGPT 等語言模型的發展歷程進行了一番討論，其文章也得到了 Yann LeCun 的轉推。

論文：https://arxiv.org/abs/2304.13712

相關資源：https://github.com/Mooler0410/LLMsPracticalGuide

本文將從實際應用角度出發，探討適用 LLM 的任務以及在選擇模型時需要考慮的模型、數據和任務等方面實際問題。

1 引言

近年來，發展迅猛的大型語言模型（LLM）已然引發了自然語言處理（NLP）領域的革命。這些模型非常強大，有望解決許多不同種類的 NLP 任務 —— 從自然語言理解（NLU）到生成任務，甚至鋪就了通往通用人工智能（AGI）之路。但是，為了有效且高效地利用這些模型，我們需要立足實際地理解它們的能力和局限，還要理解 NLP 所涉及的數據和任務。

這篇論文重點著眼于在下游 NLP 任務中實際應用 LLM 的各個方面，以給實踐者和最終用戶提供指引。本指南的目標是為讀者提供實際有用的建議，以助其了解是否應該為給定任務選用 LLM 以及如何選擇最適用的 LLM—— 這其中需要考慮諸多因素，比如模型大小、計算需求、具體領域是否已有預訓練模型等。本文還會從實際應用角度介紹和解釋 LLM，這些實用知識能助力實踐者和最終用戶成功利用 LLM 的力量來解決他們自己的 NLP 任務。

本文的結構為：本文首先會簡要介紹 LLM，其中主要會討論最重要的 GPT 式和 BERT 式架構。然后會深入介紹數據方面影響模型性能表現的關鍵因素，包括預訓練數據、訓練數據 / 調優數據、測試數據。在最后也是最重要的部分，本文會深入各種具體的 NLP 任務，介紹 LLM 是否適用于知識密集型任務、傳統 NLU 任務和生成任務，此外還會描述這些模型不斷獲得的新能力以及具有挑戰性的現實世界應用場景。我們會提供詳細的案例，以彰顯 LLM 在實踐中有用和有局限的地方。

為了分析大型語言模型的能力，本文會將它們與微調模型（fine-tuned model）進行比較。對于 LLM 和微調模型的定義，目前而言我們還沒有一個得到廣泛認可的標準。為了實際有效地區分，本文給出的定義如下：LLM 是指在大規模數據集上預訓練得到的大型語言模型并且沒有針對具體任務調整數據；微調模型則通常更小一些，它們在經過預訓練后還會在更小的具體任務數據集上做進一步微調，以優化它們在該任務上的表現。

本文總結了在以下方面使用 LLM 的實用指南：

自然語言理解。當實際數據不在訓練數據的分布范圍內或訓練數據非常少時，可利用 LLM 那出色的泛化能力。
自然語言生成。使用 LLM 的能力為各種應用創造連貫的、上下文相關的和高質量的文本。
知識密集型任務。利用 LLM 中存儲的廣博知識來處理需要特定專業知識或一般性世界知識的任務。
推理能力。理解和利用 LLM 的推理能力來提升各種情形中制定決策和解決問題的能力。

2 模型方面的實用指南

圖 1：這幅現代 LLM 的進化樹追溯了近些年語言模型的發展歷程，其中重點凸顯了某些最知名的模型。同一分支上的模型關系更近。基于 Transformer 的模型都不用灰色表示：僅解碼器模型是藍色分支，僅編碼器模型是粉色分支，編碼器 - 解碼器模型是綠色分支。模型在時間軸的豎直位置表示其發布時間。實心方塊表示開源模型，空心方塊則是閉源模型。右下角的堆積條形圖是指各家公司和機構的模型數量。

這一節會簡要介紹當前表現最佳的 LLM。這些模型有著各不相同的訓練策略、模型架構和用例。為了更清晰地理解 LLM 的整體圖景，我們可將其分為兩大類：編碼器 - 解碼器或僅編碼器（encoder-only）語言模型和僅解碼器（decoder-only）語言模型。圖 1 詳細展示了語言模型的演化過程。基于這幅進化樹，我們可以觀察到一些有趣的結論：

a）僅解碼器模型正逐漸成為 LLM 發展的主導模型。在 LLM 的早期發展階段，僅解碼器模型的流行程度趕不上僅編碼器和編碼器 - 解碼器模型。但在 2021 年之后，GPT-3 的出現改變了行業圖景，僅解碼器模型經歷了爆發式的發展。與此同時，BERT 也為僅編碼器模型帶來了初始的爆發式增長，但在那之后，僅編碼器模型卻漸漸淡出了視野。

b）OpenAI 持續保持著其在 LLM 方向上的領先地位，現在如此，未來很可能也是如此。為了開發可與 GPT-3 和 GPT-4 媲美的模型，其它公司和機構正在奮力追趕。OpenAI 的領先地位可能需要歸功于其在技術上持續不懈的投入，即便該技術在早期時并未得到廣泛認可。

c）Meta 在開源 LLM 和推動 LLM 研究方面貢獻卓越。在對開源社區（尤其是與 LLM 相關的）的貢獻方面，Meta 尤為突出，是最慷慨的商業公司之一，因為 Meta 開源了其開發的所有 LLM。

d）LLM 開發有閉源的趨勢。在 LLM 發展的早期階段（2020 年之前），絕大部分模型都是開源的。但是，隨著 GPT-3 的推出，公司越來越傾向于選擇閉源他們的模型，比如 PaLM、LaMDA 和 GPT-4。也因此，學術研究者越來越難以進行 LLM 訓練實驗。這就導致了一個結果：基于 API 的研究可能會成為學術界的主導方法。

e）編碼器 - 解碼器模型依然有發展前景，因為公司和機構依然在積極探索這類架構，并且大部分模型都是開源的。谷歌在開源編碼器 - 解碼器方面有重大貢獻。但是，由于僅解碼器模型的靈活性和通用性，谷歌在這個方向上堅持成功的希望似乎更小一些。

表 1 簡要總結了各種代表性 LLM 的特點。

表 1：大型語言模型的特點

2.1 BERT 式語言模型：編碼器 - 解碼器或僅編碼器

由于自然語言數據很容易獲得，并且還能使用無監督訓練范式來更好地利用超大規模數據集，因此最近一段時間，自然語言無監督學習的發展獲得了長足的進步。一種常用方法是基于上下文來預測句子中被遮掩的詞。這種訓練范式被稱為掩碼語言模型（Masked Language Model）。這種訓練方式讓模型能更深刻地理解詞與其上下文之間的關系。這些模型是在大型文本語料上訓練的，使用了 Transformer 架構等技術，并且在許多 NLP 任務上達到過最佳表現，比如情感分析和命名實體識別。著名的掩碼語言模型有 BERT、RoBERTa 和 T5。由于其在多種任務上的成功表現，掩碼語言模型已經成為自然語言處理領域的一種重要工具。

2.2 GPT 式語言模型：僅解碼器

盡管語言模型的架構通常與具體任務無關，但這些方法需要基于具體下游任務的數據集進行微調。研究者發現擴增語言模型的規模就能顯著提升其在少樣本或零樣本時的表現。在提升少樣本和零樣本時的表現方面，最成功的模型是自回歸語言模型，它的訓練方式是根據給定序列中前面的詞來生成下一個詞。這些模型已被廣泛用于文本生成和問答等下游任務。自回歸語言模型包括 GPT-3、OPT、PaLM 和 BLOOM。變革性的 GPT-3 首次表明通過提示和上下文學習能在少 / 零樣本時給出合理結果，并由此展現了自回歸語言模型的優越性。

另外還有針對具體任務優化的模型，比如用于代碼生成的 CodeX 以及用于金融領域的 BloombergGPT。近期的重大突破是 ChatGPT，該模型是針對對話任務優化的 GPT-3，其能為多種現實世界應用生成更具交互性、更連貫且更貼合上下文的對話。

3 數據方面的實用指南

本節將介紹在為下游任務選擇合適模型時數據的關鍵性作用。數據對模型有效性的影響從預訓練階段就開始了，并會一直持續到訓練和推理階段。

重點 1

（1）當下游任務會用到分布之外的數據時，比如使用對抗樣本或數據域變化時，LLM 的泛化能力優于微調模型。

（2）當已標注數據有限時，LLM 優于微調模型；當有豐富的已標注數據時，兩者都是合理選擇，這取決于具體的任務需求。

（3）建議選擇預訓練使用的數據域與下游任務數據域相似的模型。

4 NLP 任務方面的實用指南

本節將詳細討論 LLM 在多種下游 NLP 任務上是否有用以及對應的模型能力。圖 2 是將所有討論總結成的一張決策流程圖。當面對某個任務時，可基于該流程進行快速決策。

圖 2：用戶為 NLP 應用選擇 LLM 或微調模型時的決策流程。這張決策流程圖可幫助用戶評估他們手頭的下游 NLP 任務是否滿足特定條件，并且還能基于評估結果確定他們的應用最適合選擇 LLM 還是微調模型。在圖中的決策流程中，Y 表示符合條件，N 表示不符合條件。最后一個條件的 Y 旁的黃色圓圈表示目前還沒有很適合這類應用的模型。

4.1 傳統的 NLU 任務

傳統 NLU 任務是 NLP 領域中一些基本任務，包括文本分類、命名實體識別（NER）、蘊含預測（entailment prediction）等。這些任務中的許多都可用作更大型 AI 系統的中間步驟，比如將 NER 用于知識圖譜構建。

不適用 LLM：對于大多數自然語言理解任務，比如 GLUE 和 SuperGLUE 中的任務，如果該任務已有豐富的標注良好的數據并且測試集中僅有非常少的數據在分布之外，那么微調模型的表現依然更好。當任務與數據集各不相同時，小型微調模型和 LLM 之間的差距也會不同。

適用 LLM：但是，也有些 NLU 任務更適合用 LLM 處理。其中兩項代表性任務是繁雜文本的分類問題和對抗式自然語言推理。

重點 2

對傳統自然語言理解任務而言，微調模型通常是比 LLM 更好的選擇，但如果該任務需要強大的泛化能力，那么 LLM 可提供幫助。

4.2 生成任務

自然語言生成的目標是創建連貫的、有意義的且符合上下文的符號序列，其大致上包含兩大類任務。第一類任務關注的重心是將輸入文本轉換成新的符號序列，例子包括段落摘要和機器翻譯。第二類任務則是「開放式生成」，目標是從頭開始生成文本或符號，使之準確匹配輸入的描述，比如編寫電子郵件、撰寫新文章、創造虛構故事以及寫代碼。

適用 LLM：生成任務需要模型全面理解輸入的內容或需求并且還需要一定程度的創造力。這正是 LLM 擅長的。

不適用 LLM：在大多數有豐富資源的翻譯任務和資源很少的翻譯任務上，微調模型的表現更佳，比如 DeltaLM+Zcode。對于有豐富資源的機器翻譯，微調模型稍微優于 LLM。對于資源極少的機器翻譯，比如英語 - 哈薩克語翻譯，微調模型顯著優于 LLM。

重點 3

得益于強大的生成能力和創造力，LLM 在大多數生成任務上都有優勢。

4.3 知識密集型任務

知識密集型 NLP 任務是指非常依賴背景知識、特定領域專業知識或一般性真實世界知識的任務類別。這些任務需要的不僅僅是模式識別或句法分析。它們高度依賴記憶和適當利用知識，這些知識關聯著我們的真實世界的特定實體、事件和常識。

適用 LLM：一般來說，如果有數以十億計的訓練 token 和參數，LLM 所包含的真實世界知識量可遠遠超越微調模型。

不適用 LLM：某些其它任務需要的知識不同于 LLM 學習到的知識。所需的知識不是 LLM 學習到的關于真實世界的知識。在這樣的任務中，LLM 沒有明顯優勢。

重點 4

（1）得益于龐大的真實世界知識，LLM 擅長處理知識密集型任務。（2）當知識需求與所學知識不匹配時，LLM 會遇到困難；或者當任務只需要上下文的知識時，微調模型可以達到與 LLM 同等的表現。

4.4 在擴展規模方面的能力

擴展 LLM 的規模（比如參數、訓練計算等）可以極大助力預訓練語言模型。通過擴大模型規模，模型處理多種任務的能力通常能得到提升。反映到某些指標上，模型的性能表現與模型規模呈現冪律關系。舉個例子，用于度量語言建模性能的交叉熵損失會隨模型規模的指數級增長而線性下降，這也被稱為「標度律（scaling-law）」。對于推理等某些關鍵能力，擴大模型規模就能逐漸將這些能力從非常低的水平提升到一個可使用的水平，甚至可接近人類水平。本小節將從規模對 LLM 的能力和行為的影響方面介紹 LLM 的使用。

推理方面的 LLM 用例：推理涉及到理解信息、進行推論和做出決定，是人類智力的一大核心能力。對 NLP 而言，推理卻極具挑戰性。現有的許多推理任務可以分為常識推理和算術推理兩類。模型增大能極大提升 LLM 的算術推理能力。常識推理不僅需要 LLM 記住事實性知識，還需要 LLM 執行一些有關事實的推理步驟。常識推理能力會隨模型大小的增長而逐漸提升。相比于微調模型，LLM 在大多數數據集上都表現更優。

涌現能力方面的 LLM 用例：擴增模型規模還能賦予模型一些超越冪律規則的前所未有的奇妙能力。這些能力被稱為「涌現能力（emergent ability）」。正如論文《Emergent Abilities of Large Language Models》中定義的那樣：LLM 的涌現能力是指小規模模型不具備但出現在大規模模型中的能力。（有關該論文的更多解讀可參閱《Jeff Dean 等人新作：換個角度審視語言模型，規模不夠發現不了》）這意味著我們無法基于小規模模型的性能提升而推斷預測出這種能力；而在某些任務上，模型的規模一旦超過一定程度，就可能突然獲得優異表現。涌現能力通常不可預測并且出人意料，這可能導致模型有能力處理隨機出現或意料之外的任務。

不適用 LLM 以及理解涌現：盡管大多數情況下，模型更大，表現也更優，但也依然存在例外情況。

在某些任務上，隨著 LLM 規模的提升，模型表現會開始下降。這也被稱為反標度現象（Inverse Scaling Phenomenon）。此外研究者還觀察到另一個有關規模的有趣現象，即 U 形現象（U-shaped Phenomenon）。顧名思義，該現象是指隨著 LLM 模型增大，其在特定任務上的表現一開始會提升，然后會開始下降，之后又會再次提升。

為了推進該領域的研究，我們必需更深入地理解涌現能力、反標度現象和 U 形現象。

重點 5

（1）隨著模型規模的指數級增長，LLM 的算術推理和常識推理能力也會上升。（2）隨著 LLM 規模的擴增，涌現能力能機緣巧合地發現新用途，比如詞處理能力和邏輯能力。（3）模型的能力并不總是會隨規模提升，而且我們對大型語言模型的能力與規模的關系的理解還很有限。

4.5 雜項任務

為了更好地理解 LLM 的優勢和短板，下面會談談上面沒有涉及到的其它任務。

不適用 LLM：如果模型目標與訓練數據有差異，那么 LLM 在這些任務上通常會遇到困難。

適用 LLM：LLM 尤其適用于某些特定任務。舉些例子，LLM 非常擅于模仿人類、LLM 還可用于評估摘要和翻譯等某些 NLG 任務的質量、LLM 的某些能力還能帶來性能提升之外的其它好處，如可解釋性。

重點 6

（1）對于遠離 LLM 的預訓練目標和數據的任務而言，微調模型和特定領域模型仍有一席之地。（2）LLM 擅于模仿人類、數據標注和生成。它們也可用于 NLP 任務的質量評估，并且有可解釋性等好處。

4.6 真實世界「任務」

本小節最后討論一下 LLM 和微調模型在真實世界「任務」上的應用。這里所用的「任務」一詞并不嚴謹，因為不同于學術場景，真實世界場景通常缺乏形式優良的定義。對模型的很多需求甚至不能被視為 NLP 任務。模型面臨的真實世界挑戰來自以下三方面：

有噪聲的 / 非結構化的輸入。真實世界的輸入來自真實世界的人，他們大都不是專家。他們并不了解如何與模型適當交互，甚至都可能無法流暢地使用文本。因此，真實世界的輸入數據可能很混亂、帶有拼寫錯誤、口語化文本和多語言混雜，這不同于預訓練或微調使用的定義格式良好的數據。
未被學術界形式化的任務。真實世界場景中的任務通常沒有得到學術界的良好定義，并且多樣性也遠遠超出學術研究場景的定義。用戶通常提出的查詢或請求并不能很好地歸入預定義的類別，并且有時單個查詢會包含多項任務。
遵從用戶的指令。用戶的請求可能會包含多個隱含意圖（比如對輸出格式有具體要求），或者如果沒有后續問題，不清楚用戶期望的預測結果。模型需要理解用戶的意圖并提供與這些意圖一致的輸出。

本質上講，來自用戶請求的這些真實世界難題是因為偏離了針對特定任務設計的任何 NLP 數據集的分布。公共 NLP 數據集并不能反映這些模型的使用方式。

重點 7

相比于微調模型，LLM 更適合用于處理真實世界場景。但是，評估模型在真實世界中的有效性依然是一個懸而未決的問題。

5 其它方面

盡管 LLM 適用于多種下游任務，但也有其它一些因素需要考慮，比如效率和可信度。效率方面涉及到的問題包括 LLM 的訓練成本、推理延遲度以及高效利用參數的調優策略。在可信度方面則需要考慮 LLM 的穩健性和校準能力、公平和偏見、潛在的錯誤相關性以及安全性難題。重點 8（1）如果任務對成本敏感或有嚴格延遲要求，那么應該優先考慮輕量的本地微調模型。在部署和交付模型時，可考慮進行調優以高效利用參數。（2）LLM 的零樣本方法能防止其從具體任務的數據集中學習捷徑，而這種情況對微調模型來說卻很常見。盡管如此，LLM 仍會表現出一定的捷徑學習問題。（3）由于 LLM 潛在的有害或有偏見輸出以及幻覺（hallucination）問題可能導致嚴重后果，因此與 LLM 相關的安全問題應得到最大重視。人類反饋等方法有望緩解這些問題。

6 總結和未來挑戰

這份實用指南提供了有關 LLM 的洞見以及在各種 NLP 任務上使用 LLM 的最佳實踐方法。希望這能幫助研究者和實踐者利用 LLM 的潛力并推動語言技術的創新。

當然，LLM 也還有一些有待解決的挑戰：

在真實世界數據集上對模型進行評估。盡管現有的深度學習模型主要是在 ImageNet 等標準學術數據集上進行評估，但標準學術數據集是有局限的，并不能確切反映模型在真實世界中的表現。隨著模型的進步，有必要在反映真實需求的更多樣化、復雜和真實的數據上評估它們。在學術數據集和真實世界數據集上評估模型，能模型得到更嚴格的測試，還能讓我們更好地理解它們在真實世界應用中的有效性。這能確保模型有能力解決真實世界難題并交付實際可用的解決方案。
模型合準（Model Alignment）。確保日益強大和自動化的模型與人類價值觀和優先項保持一致是非常重要的。我們必須想出辦法，確保模型的行為符合預期，并且不要為我們不想要的結果而優化模型。要從模型開發過程一開始就整合合準技術，這是很重要的。在評估和確保合準方面，模型透明性和可解釋性也很重要。此外，著眼未來，還有更加艱巨挑戰正在顯現：對超人類的系統執行合準。盡管目前這一任務超出了我們的需求，但重點是要考慮到合準這樣先進的系統并為此做準備，因為它們可能會帶來獨特的復雜性和道德倫理問題。
安全性合準（Safety Alignment）。盡管討論 AI 帶來的存在主義風險很重要，但我們還是需要切實的研究來確保能安全地開發先進 AI。這包括用于可解釋性、可擴展監督與治理以及模型屬性的形式驗證的技術。在模型的構建過程中，安全不應被視為一個附加組件，而應是整體的組成部分。
在模型規模變化時預測其表現。當模型大小和復雜性顯著提升時，我們很難預測模型會有何表現。應當開發技術來更好預測模型規模提升或使用新架構時模型的表現情況，這能讓我們更高效地使用資源以及加快開發進程。有這樣一些可能性：訓練一個更小的「種子」模型并通過外推方式預測其增長情況，模擬擴大規模或調整模型的效果，以及對不同規模的模型的測試基準進行迭代以構建標度律。這能讓我們在構建模型之前就對模型的性能表現有所了解。

責任編輯：張燕妮來源：機器之心

模型 ChatGPT

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看