阿里達摩院發布中文社區最大規模預訓練語言模型PLUG, 刷新CLUE分類榜單紀錄
4月19日,阿里巴巴達摩院發布中文社區最大規模預訓練語言模型PLUG(Pre-training for Language Understanding and Generation)。該模型參數規模達270億,集語言理解與生成能力于一身,在小說創作、詩歌生成、智能問答等長文本生成領域表現突出,其目標是通過超大模型的能力,大幅提升中文NLP各類任務的表現,取得超越人類表現的性能。發布后,PLUG刷新了中文語言理解評測基準CLUE分類榜單歷史紀錄。
自去年OpenAI發布超大規模預訓練語言模型GPT-3引發全球熱議后,中文領域同類模型的訓練進程備受關注。與GPT-3類似,阿里達摩院本次發布的PLUG有望廣泛應用于文本生成領域,成為“萬能寫作神器”。更重要的是,此類超大模型擁有極強的通用性,被認為或將成為AI時代的新型基礎設施之一。
較GPT-3改進之處在于,PLUG設計了一個簡潔的模型框架,集成了達摩院自研的語言理解及語言生成雙模型,并通過構建輸入文本雙向理解能力,顯著提升了輸出文本的相關性。在語言理解任務上,PLUG以80.614分刷新了CLUE分類榜單紀錄;在語言生成任務上,PLUG多項應用數據較業內最優水平提升了8%以上。
(注:4月19日,PLUG刷新CLUE分類榜單紀錄,排名僅次于“人類”)
據了解,PLUG采用了1TB以上高質量中文文本訓練數據,涵蓋新聞、小說、詩歌、問答等廣泛類型及領域,其模型訓練依托了阿里云EFLOPS 高性能AI計算集群。接下來,PLUG將擴大參數規模至2000億級,并進一步提升文本生成質量。在超大規模預訓練模型領域,除發布以中文為核心的PLUG外,阿里達摩院、阿里云計算平臺團隊還聯合智源研究院、清華大學發布了面向認知的超大規模新型預訓練模型“文匯”,以及聯合清華大學發布了超大規模多模態預訓練模型“M6”。
與PLUG發布同步,達摩院宣布近期將開源阿里巴巴深度語言模型體系大部分重要模型。阿里達摩院語言技術實驗室負責人司羅表示,“達摩院NLP團隊將進一步攻克自然語言處理領域科研難題,完善中文及跨語言人工智能基礎設施,讓AI沒有難懂的語言,并探索通用人工智能之路。”