AI在這張“問卷”上首次超越人類，微軟登頂SuperGLUE

作者：曉查 2021-01-07 14:56:55

自然語言理解(NLU)迎來新的里程碑。在最新的NLU測試基準SuperGLUE中，人類首次被AI超越了。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

自然語言理解(NLU)迎來新的里程碑。

在最新的NLU測試基準SuperGLUE中，人類首次被AI超越了。

SuperGLUE相比“前輩”GLUE大大提升了問題的難度，提出一年多以來，人類一直處于第一位。

現如今，人類一下子被兩家AI超越。

一個是來自微軟的DeBERTa，一個是來自谷歌的T5+Meena。

超越人類的兩大NLU模型

對NLP領域的人來說，微軟DeBERTa模型并不陌生，早在去年8月微軟就開源了該模型的代碼，并提供預訓練模型下載。

最近，最近微軟訓練了更大規模的模型，該版本由15億參數的48個Transformer層組成。增大規模帶來的性能提升，使單個DeBERTa模型SuperGLUE上的得分（90.3）首次超過了人類（89.8），居于榜單首位。

DeBERTa（注意力分離的解碼增強BERT）是一種基于Transformer的神經語言模型，使用自監督學習對大量原始文本語料庫進行預訓練。

和其他預訓練語言模型(PLM)一樣，DeBERTa旨在學習通用語言表示形式，適應各種下游NLU任務。DeBERTa使用三種新技術——分離的注意力機制、增強的掩碼解碼器和一種用于微調的虛擬對抗訓練方法。改進了以前的最新PLM（如BERT、RoBERTa、UniLM）。

這項研究是由微軟研究團隊的4位華人學者完成。

另一超越人類的AI是由CMU博士生王子瑞提交的T5+Meena。這兩項技術均來自谷歌。

其中，Meena是一個26億參數端到端訓練的神經對話模型，它具有一個演進Transformer編碼器塊和13個演進Transformer解碼器塊。

編碼器負責處理對話上下文，幫助Meena理解對話中已經說過的內容。然后，解碼器使用該信息來制定實際響應。

T5是谷歌去年提出的“文本到文本遷移Transformer”，也就是用遷移學習讓不同的NLP任務可以使用相同的模型、損失函數和超參數，一個框架在機器翻譯、文檔摘要、問答和情感分析上都能使用。

T5最大的模型具有110億個參數，早在推出之時就取得了SuperGLUE上的最高水平，至今仍僅次于榜單前二模型和人類。

SuperGLUE是由Facebook、紐約大學、華盛頓大學和DeepMind四家機構于2019年8月提出的新NLU測試基準，以取代過去的GLUE。

由于之前微軟、谷歌和Facebook的模型連續刷新GLUE基準測試得分，已有不少AI模型超越了人類的表現。因此GLUE已不能順應NLU技術的發展，SuperGLUE應運而生。

我們從最初的GLUE基準測試中吸取的經驗教訓，并推出了SuperGLUE，這是一個采用了GLUE的新基準測試，具有一系列更加困難的語言理解任務、改進的資源和一個新的公共排行榜。

四家機構在SuperGLUE的官方文檔中如是說。

SuperGLUE總共包含10項任務，用于測試系統因果推理、識別因果關系、閱讀短文后回答是非問題等等方面的能力。SuperGLUE還包含Winogender，一種性別偏見檢測工具。

這些問題用當前最先進的算法還不能很好地解決，卻很容易被人類理解。

尤其是“選擇合理的替代方案”（COPA）這一項因果推理任務。它要求系統能根據給出的句子，在兩個選項中找出可能的原因或結果。比如：

那個男人的腳趾斷了。這是什么原因造出的？
備選答案1：他的襪子上有一個洞。
備選答案2：他把錘子掉在腳上了。

人類可以在COPA上獲得了100％的準確率，而BERT只有74％，這表明了NLU還存在巨大的進步空間。

現在SuperGLUE上超越了人類表現，微軟的研究人員認為：“這是通向通用AI的重要里程碑”。

微軟DeBERTa源代碼與預訓練模型：

https://github.com/microsoft/DeBERTa

谷歌T5和Meena：

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

責任編輯：張燕妮來源：量子位