26億參數，智源、清華開源中文大規模預訓練模型

作者：佚名 2020-11-18 10:29:07

近日，北京智源人工智能研究院和清華大學研究團隊聯合發布了以中文為核心的大規模預訓練語言模型 CPM-LM，參數規模達 26 億，預訓練中文數據規模 100 GB。

自 2018 年谷歌發布 BERT 以來，預訓練模型在自然語言處理（NLP）領域逐漸成為主流。今年 5 月份，OpenAI 推出的史上最大 AI 模型 GPT-3更是引起了大量討論。但是，目前 NLP 領域的預訓練模型多針對英語語言，以英語語言數據為訓練數據，例如 GPT-3：

用于訓練 GPT-3 的數據集。

近日，北京智源人工智能研究院和清華大學研究團隊合作開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規模預訓練模型開源計劃，旨在構建以中文為核心的大規模預訓練模型。首期開源內容包括預訓練中文語言模型和預訓練知識表示模型，可廣泛應用于中文自然語言理解、生成任務以及知識計算應用，所有模型免費向學術界和產業界開放下載，供研究使用。

清源 CPM 主頁：https://cpm.baai.ac.cn/

清源 CPM Github 托管代碼主頁：https://github.com/TsinghuaAI/

模型特點

根據清源 CPM 主頁介紹，該計劃發布的預訓練模型具備以下特點：

模型規模大：本次發布的CPM-LM 參數規模達 26 億，預訓練中文數據規模 100 GB，使用了 64 塊 V100 GPU，訓練時間約為 3 周；CPM-KG 的參數規模為 217 億，預訓練結構化知識圖譜為 WikiData 全量數據，包含近 1300 個關系、8500 萬實體、4.8 億個事實三元組，使用了 8 塊 V100 GPU 訓練時間約為 2 周。

語料豐富多樣：收集大量豐富多樣的中文語料，包括百科、小說、對話、問答、新聞等類型。

學習能力強：能夠在多種自然語言處理任務上進行零次學習或少次學習，并達到較好的效果。

行文自然流暢：基于給定上文，模型可以續寫出一致性高、可讀性強的文本，達到現有中文生成模型的領先效果。

在模型訓練方面，CPM 模型預訓練過程分布在多塊 GPU 上，采用層內并行的方法進行訓練，并基于當前已有的成熟技術，減少同步提高通訊速率。

在硬件設施方面，為訓練該 CPM 模型，共有 64 塊 V100 顯卡投入使用。經過預訓練的 CPM 模型可以用來促進諸多下游中文任務，如對話、論文生成、完形填空和語言理解等。

為了促進中文自然語言處理研究的發展，該項目還提供了 CPM-LM (2.6B) 模型的文本生成代碼，可用于文本生成的本地測試，并以此為基礎進一步研究零次學習 / 少次學習等場景，詳情參見項目 GitHub 主頁。

模型性能

清源 CPM 使用新聞、百科、對話、網頁、故事等不同類型的中文語料數據進行預訓練。在多個公開的中文數據集上的實驗表明，清源 CPM 在少樣本或無樣本的情況下均能夠實現較好的效果。

中文成語填空 ChID

ChID 是 2019 年清華大學對話交互式人工智能實驗室（CoAI）收集的中文成語填空數據集，其目標是對于給定的段落，在 10 個候選項中選擇最符合段意的成語進行填空。

其中有監督設定是指在 ChID 的訓練集上進行訓練，隨后在測試集上測試；無監督設定是指不經過任何額外訓練，直接使用預訓練模型進行測試。具體做法是，將候選項依次填入段落中，計算填充后段落的困惑度 (Perplexity)，選擇困惑度最小的候選項作為預測結果。表中匯報了預測的準確率，可以看到，CPM (大) 在無監督設定下甚至達到了比有監督 CPM (小) 更好的結果，反映出清源 CPM 強大的中文語言建模能力。

對話生成 STC

STC 是 2015 年華為諾亞方舟實驗室提出的短文本對話數據集，要求在給定上文多輪對話的條件下預測接下來的回復。

其中 CDial-GPT 是清華大學對話交互式人工智能（CoAI）實驗室 2020 年提出的中文對話預訓練模型。用于衡量多樣性的 Dist-n 指標的兩個數字分別是所有不重復的 N-Gram 的數量及占所有 N-Gram 的比例。可以看到，在無監督的設定下，清源 CPM 具有更好的泛化性，在有監督設定下，清源 CPM 能達到比 CDial-GPT 更優的效果，尤其在多樣性指標上表現更佳。

文本分類

清源 CPM 使用頭條新聞標題分類（TNEWS，采樣為 4 分類）、IFLYTEK 應用介紹分類（IFLYTEK，采樣為 4 分類）、中文自然語言推斷（OCNLI，3 分類）任務作為文本分類任務的基準。具體做法是，先輸入分類樣本，再輸入「該文章的類別為 / 該介紹的類別為 / 兩句話的關系為」，要求模型直接生成標簽，四個標簽中概率最高的標簽作為預測結果。在無監督設定下，不同規模的清源 CPM 在文本分類任務上的精確度如下表所示：

清源 CPM 能夠在無監督的設定下達到比隨機預測好得多的精確度（TNEWS/IFLYTEK/OCNLI 隨機預測精確度分別為 0.25/0.25/0.33）。

自動問答

CPM 使用 DuReader 和 CMRC2018 作為自動問答任務的基準，要求模型從給定段落中抽取一個片段作為對題目問題的答案，其中 DuReader 由百度搜索和百度知道兩部分數據組成。在無監督的設定下，不同規模的 CPM 模型的表現如下表所示：

其中單樣本是指在測試時，從數據集中隨機抽取一個正確的「(段落，問題，答案)」三元組，插入到用于評價的樣例前，作為 CPM 模型生成答案的提示；零樣本是指直接使用 CPM 模型預測給定段落和問題的答案。在單樣本設定下，CPM 能從給定的樣本中學習到生成答案的模式，因此效果總是比零樣本設定更好。由于模型的輸入長度有限，多樣本輸入的場景將在未來進行探索。

模型效果展示

我們可以從以下示例中，觀察 CPM 預訓練中文語言模型的效果。比如基于對單個常識性問題的學習，依照規律進行提問和正確回答：