成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

26億參數,智源、清華開源中文大規模預訓練模型

新聞 人工智能
近日,北京智源人工智能研究院和清華大學研究團隊聯合發布了以中文為核心的大規模預訓練語言模型 CPM-LM,參數規模達 26 億,預訓練中文數據規模 100 GB。

 近日,北京智源人工智能研究院和清華大學研究團隊聯合發布了以中文為核心的大規模預訓練語言模型 CPM-LM,參數規模達 26 億,預訓練中文數據規模 100 GB。

[[352853]]

自 2018 年谷歌發布 BERT 以來,預訓練模型在自然語言處理(NLP)領域逐漸成為主流。今年 5 月份,OpenAI 推出的史上最大 AI 模型 GPT-3更是引起了大量討論。但是,目前 NLP 領域的預訓練模型多針對英語語言,以英語語言數據為訓練數據,例如 GPT-3:

26億參數,智源、清華開源中文大規模預訓練模型

用于訓練 GPT-3 的數據集。

近日,北京智源人工智能研究院和清華大學研究團隊合作開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規模預訓練模型開源計劃,旨在構建以中文為核心的大規模預訓練模型。首期開源內容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用于中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產業界開放下載,供研究使用。

清源 CPM 主頁:https://cpm.baai.ac.cn/

清源 CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/

模型特點

根據清源 CPM 主頁介紹,該計劃發布的預訓練模型具備以下特點:

模型規模大:本次發布的CPM-LM 參數規模達 26 億,預訓練中文數據規模 100 GB,使用了 64 塊 V100 GPU,訓練時間約為 3 周;CPM-KG 的參數規模為 217 億,預訓練結構化知識圖譜為 WikiData 全量數據,包含近 1300 個關系、8500 萬實體、4.8 億個事實三元組,使用了 8 塊 V100 GPU 訓練時間約為 2 周。

語料豐富多樣:收集大量豐富多樣的中文語料,包括百科、小說、對話、問答、新聞等類型。

學習能力強:能夠在多種自然語言處理任務上進行零次學習或少次學習,并達到較好的效果。

行文自然流暢:基于給定上文,模型可以續寫出一致性高、可讀性強的文本,達到現有中文生成模型的領先效果。

在模型訓練方面,CPM 模型預訓練過程分布在多塊 GPU 上,采用層內并行的方法進行訓練,并基于當前已有的成熟技術,減少同步提高通訊速率。

在硬件設施方面,為訓練該 CPM 模型,共有 64 塊 V100 顯卡投入使用。經過預訓練的 CPM 模型可以用來促進諸多下游中文任務,如對話、論文生成、完形填空和語言理解等。

為了促進中文自然語言處理研究的發展,該項目還提供了 CPM-LM (2.6B) 模型的文本生成代碼,可用于文本生成的本地測試,并以此為基礎進一步研究零次學習 / 少次學習等場景,詳情參見項目 GitHub 主頁。

模型性能

清源 CPM 使用新聞、百科、對話、網頁、故事等不同類型的中文語料數據進行預訓練。在多個公開的中文數據集上的實驗表明,清源 CPM 在少樣本或無樣本的情況下均能夠實現較好的效果。

中文成語填空 ChID

ChID 是 2019 年清華大學對話交互式人工智能實驗室(CoAI)收集的中文成語填空數據集,其目標是對于給定的段落,在 10 個候選項中選擇最符合段意的成語進行填空。

26億參數,智源、清華開源中文大規模預訓練模型

其中有監督設定是指在 ChID 的訓練集上進行訓練,隨后在測試集上測試;無監督設定是指不經過任何額外訓練,直接使用預訓練模型進行測試。具體做法是,將候選項依次填入段落中,計算填充后段落的困惑度 (Perplexity),選擇困惑度最小的候選項作為預測結果。表中匯報了預測的準確率,可以看到,CPM (大) 在無監督設定下甚至達到了比有監督 CPM (小) 更好的結果,反映出清源 CPM 強大的中文語言建模能力。

對話生成 STC

STC 是 2015 年華為諾亞方舟實驗室提出的短文本對話數據集,要求在給定上文多輪對話的條件下預測接下來的回復。

26億參數,智源、清華開源中文大規模預訓練模型

其中 CDial-GPT 是清華大學對話交互式人工智能(CoAI)實驗室 2020 年提出的中文對話預訓練模型。用于衡量多樣性的 Dist-n 指標的兩個數字分別是所有不重復的 N-Gram 的數量及占所有 N-Gram 的比例。可以看到,在無監督的設定下,清源 CPM 具有更好的泛化性,在有監督設定下,清源 CPM 能達到比 CDial-GPT 更優的效果,尤其在多樣性指標上表現更佳。

文本分類

清源 CPM 使用頭條新聞標題分類(TNEWS,采樣為 4 分類)、IFLYTEK 應用介紹分類(IFLYTEK,采樣為 4 分類)、中文自然語言推斷(OCNLI,3 分類)任務作為文本分類任務的基準。具體做法是,先輸入分類樣本,再輸入「該文章的類別為 / 該介紹的類別為 / 兩句話的關系為」,要求模型直接生成標簽,四個標簽中概率最高的標簽作為預測結果。在無監督設定下,不同規模的清源 CPM 在文本分類任務上的精確度如下表所示:

26億參數,智源、清華開源中文大規模預訓練模型

清源 CPM 能夠在無監督的設定下達到比隨機預測好得多的精確度(TNEWS/IFLYTEK/OCNLI 隨機預測精確度分別為 0.25/0.25/0.33)。

自動問答

CPM 使用 DuReader 和 CMRC2018 作為自動問答任務的基準,要求模型從給定段落中抽取一個片段作為對題目問題的答案,其中 DuReader 由百度搜索和百度知道兩部分數據組成。在無監督的設定下,不同規模的 CPM 模型的表現如下表所示:

26億參數,智源、清華開源中文大規模預訓練模型

其中單樣本是指在測試時,從數據集中隨機抽取一個正確的「(段落,問題,答案)」三元組,插入到用于評價的樣例前,作為 CPM 模型生成答案的提示;零樣本是指直接使用 CPM 模型預測給定段落和問題的答案。在單樣本設定下,CPM 能從給定的樣本中學習到生成答案的模式,因此效果總是比零樣本設定更好。由于模型的輸入長度有限,多樣本輸入的場景將在未來進行探索。

模型效果展示

我們可以從以下示例中,觀察 CPM 預訓練中文語言模型的效果。比如基于對單個常識性問題的學習,依照規律進行提問和正確回答:

26億參數,智源、清華開源中文大規模預訓練模型

根據前文真實的天氣預報,繼續報道天氣預報(不保證正確性):

26億參數,智源、清華開源中文大規模預訓練模型

執行數理推理:

26億參數,智源、清華開源中文大規模預訓練模型

甚至續寫《紅樓夢》片段:

26億參數,智源、清華開源中文大規模預訓練模型

據了解,清源 CPM 未來計劃開源發布更大規模的預訓練中文語言模型、以中文為核心的多語言預訓練模型、融合大規模知識的預訓練語言模型等。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-11-15 10:00:22

模型人工智能NLP

2022-12-06 14:11:32

開源模型

2021-01-12 15:11:01

AI 數據人工智能

2024-09-29 13:10:08

2023-07-18 15:05:00

開源大模型

2022-03-21 08:30:13

開源模型訓練預測引擎

2021-03-22 11:16:50

人工智能應用基礎設施

2021-04-19 11:02:06

阿里云達摩院AI

2021-06-28 12:01:01

預訓練模型

2021-01-12 11:06:44

阿里巴巴AI人機交互

2022-07-01 18:50:32

英特爾

2023-09-15 13:08:56

AI訓練

2024-03-18 09:53:40

GPD神經網絡模型

2021-09-02 18:41:48

智源研究院人工智能

2023-03-05 15:51:54

AIGCChatGPT

2021-11-26 10:18:37

AI 數據機器學習

2023-09-16 13:31:25

模型訓練

2023-11-27 13:51:00

模型訓練

2020-09-25 09:52:48

機器學習人工智能計算機

2020-11-12 09:55:10

百度
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕免费中文 | 这里只有精品99re | 亚洲一区二区三区四区五区中文 | 久久久久久网站 | 国产精品久久久久影院色老大 | 神马影院一区二区三区 | 午夜影院视频在线观看 | 日本一区二区三区在线观看 | 亚洲视频在线看 | 国外成人免费视频 | 久久精品一区二区 | 日韩a在线 | 97高清国语自产拍 | 免费在线观看h片 | 超碰人人91| 亚洲国产成人精品久久久国产成人一区 | 狠狠干美女 | 中文字幕第九页 | 日一区二区 | 国产精品自产av一区二区三区 | 国产精品99久久久久久人 | 中文字幕视频在线 | 国产又爽又黄的视频 | 亚洲视频免费一区 | 粉嫩一区二区三区四区公司1 | 成人精品福利 | 欧美久操网| 国产一区二区在线免费观看 | 伊人一区 | 一区二区在线不卡 | 日韩欧美在线视频播放 | 国产激情小视频 | 99免费在线视频 | 精品自拍视频 | 一区二区三区在线免费观看 | 91网站在线看 | 国产成人在线视频免费观看 | 一区二区视频免费观看 | av片免费观看 | 日韩欧美视频 | 国产精品高潮呻吟久久 |