成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

人工智能
本文提出的重構預訓練(reStructured Pre-training,RST),不僅在各種 NLP 任務上表現亮眼,在高考英語上,也交出了一份滿意的成績。

我們存儲數據的方式正在發生變化,從生物神經網絡到人工神經網絡,其實最常見的情況是使用大腦來存儲數據。隨著當今可用數據的不斷增長,人們尋求用不同的外部設備存儲數據,如硬盤驅動器或云存儲。隨著深度學習技術的興起,另一種有前景的存儲技術已經出現,它使用人工神經網絡來存儲數據中的信息。

研究者認為,數據存儲的最終目標是更好地服務于人類生活,數據的訪問方式和存儲方式同樣重要。然而,存儲和訪問數據的方式存在差異。歷史上,人們一直在努力彌補這一差距,以便更好地利用世界上存在的信息。如圖 3 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

  • 在生物神經網絡(如人腦)方面,人類在很小的時候就接受了課程(即知識)教育,以便他們能夠提取特定的數據來應對復雜多變的生活。
  • 對于外部設備存儲,人們通常按照某種模式(例如表格)對數據進行結構化,然后采用專門的語言(例如 SQL)從數據庫中有效地檢索所需的信息。
  • 對于基于人工神經網絡的存儲,研究人員利用自監督學習存儲來自大型語料庫的數據(即預訓練),然后將該網絡用于各種下游任務(例如情緒分類)。

來自 CMU 的研究者提出了一種訪問包含各種類型信息數據的新方法,這些信息可以作為指導模型進行參數優化的預訓練信號。該研究以信號為單位結構化地表示數據。這類似于使用數據庫對數據進行存儲的場景:首先將它們構造成表或 JSON 格式,這樣就可以通過專門的語言 (如 SQL) 準確地檢索所需的信息。

此外,該研究認為有價值的信號豐富地存在于世界各類的數據中,而不是簡單地存在于人工管理的監督數據集中, 研究人員需要做的是 (a) 識別數據 (b) 用統一的語言重組數據(c)將它們集成并存儲到預訓練語言模型中。該研究稱這種學習范式為重構預訓練(reStructured Pre-training,RST)。研究者將這個過程比作「礦山尋寶」。不同的數據源如維基百科,相當于盛產寶石的礦山。它們包含豐富的信息,比如來自超鏈接的命名實體,可以為模型預訓練提供信號。一個好的預訓練模型 (PLM) 應該清楚地了解數據中各種信號的組成,以便根據下游任務的不同需求提供準確的信息。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

論文地址:https://arxiv.org/pdf/2206.11147.pdf

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

預訓練語言模型尋寶

該研究提出自然語言處理任務學習的新范式, 即 RST,該范式重新重視數據的作用,并將模型預訓練和下游任務的微調視為數據的存儲和訪問過程。在此基礎上,該研究實現了一個簡單的原則,即良好的存儲機制不僅應該具有緩存大量數據的能力,還應該考慮訪問的方便性。

在克服了一些工程挑戰后,該研究通過對重構數據(由各種有價值的信息而不是原始數據組成)進行預訓練來實現這一點。實驗證明,RST 模型不僅在來自各種 NLP 任務(例如分類、信息抽取、事實檢索、文本生成等)的 52/55 流行數據集上表現大幅超過現有最好系統(例如,T0),而且無需對下游任務進行微調 。在每年有數百萬學生參加的中國最權威的高考英語考試中也取得了優異的成績。

具體而言,本文所提出的高考 AI (Qin) 比學生的平均分數高出 40 分,比使用 1/16 參數的 GPT3 高出 15 分。特別的 Qin 在 2018 年英語考試中獲得了 138.5 的高分(滿分 150)。

此外,該研究還發布了高考基準(Gaokao Benchmark)在線提交平臺,包含 2018-2021 年至今 10 篇帶注釋的英文試卷(并將每年進行擴展),讓更多的 AI 模型參加高考,該研究還建立了一個相對公平的人類和 AI 競爭的測試平臺,幫助我們更好地了解我們所處的位置。另外,在前幾天(2022.06.08)的 2022 年高考英語測試中,該 AI 系統獲得了 134 分的好成績,而 GPT3 只獲得了 108 分。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

該研究的主要貢獻包括:

(1)提出 NLP 方法的演進假說。該研究試圖通過探索現代 NLP 技術發展之間的內在聯系,從全局的角度建立了「NLP 技術演進假說」。簡而言之,該假說的核心思想是:技術的迭代總是沿著這樣的方向發展:即開發者只需做更少的事情便可以來設計更好、更通用的系統。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

到目前為止,NLP 技術演進已經經歷了如圖 2 所示的多次迭代:特征工程→架構工程→目標工程→prompt 工程,正在朝著更實際有效的以數據為中心的工程邁進。研究者希望未來能激發更多的科研人員批判性地思考這個問題,把握技術進步的核心驅動力,找到學術發展「梯度上升」路徑,做更多有科學意義的工作。

(2)基于演進假說新范式:重構預訓練(reStructured Pre-training)。該范式將模型預訓練 / 微調視為數據存儲 / 訪問過程,并聲稱良好的存儲機制應該使預期數據易于訪問。有了這樣一個新范式,該研究能夠從 10 個數據源(例如 Wikipedia)中統一世界上 26 種不同類型的信號(例如句子的實體)。在此基礎上訓練的通用模型在各種任務上取得了很強的泛化能力,其中包括 55 個 NLP 的數據集。

(3)用于高考的 AI?;谏鲜龇妒?,該研究開發了一個專門用于高考英語測試任務的 AI 系統——Qin。這是世界上第一個基于深度學習的高考英語人工智能系統。Qin 在多年的高考試題上都取得了卓越的成績:比普通人高出 40 分,僅用 GPT-3 1/16 的參數量就獲得了比 GPT-3 高 15 分的成績。特別是在 2018 年英語試題上,QIN 獲得了 138.5 分(滿分 150 分)的高分,聽力和閱讀理解都滿分。

(4) 豐富的資源。(1) 為了跟蹤現有 AI 技術在實現人類智能方面的進展,該研究發布了一種新基準——Gaokao Benchmark。它不僅提供對現實世界場景中各種實際任務和領域的綜合評估,還可以提供人類的表現成績,以便人工智能系統可以直接與人類進行比較。(2)該研究使用 ExplainaBoard(Liu et al., 2021b)為 Gaokao Benchmark 設置了一個交互式排行榜,以便更多的 AI 系統可以輕松參加 Gaokao Benchmark 并自動獲得分數。(3)所有資源都可以在 GitHub 上找到。

此外,AI 在高考英語測試任務上的成功為研究者提供了很多新的思考:AI 技術可以賦能教育,幫助解決教育和教學中的一系列問題。

例如,(a) 幫助教師自動評分,(b) 幫助學生回答有關作業的問題并詳細解釋,以及 (c) 更重要的是,促進教育公平,讓大多數家庭都能獲得同等質量的教育服務。這項工作首次以統一的方式整合了世界上 26 個不同的信號,而不是試圖區分有監督和無監督的數據,而是關心我們可以多少使用大自然給我們的信息以及如何使用。來自各種 NLP 任務的 50 多個數據集的出色表現顯示了以數據為中心的預訓練的價值,并激發了更多的未來探索。

重構預訓練

解決 NLP 任務的范式正在迅速變化,并且仍在持續,下表列出了 NLP 中的五種范式:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

與現有的以模型為中心的設計范式不同,該研究更多地從數據的角度思考,以最大限度地利用已有數據。具體來說,該研究采用數據存儲和訪問視圖,其中預訓練階段被視為數據存儲過程,而基于預訓練模型的下游任務(例如,情感分類)被視為來自預訓練模型的數據訪問過程,并聲稱良好的數據存儲機制應該使存儲的數據更易于訪問。

為了實現這一目標,該研究將數據視為由不同信號組成的對象,并認為一個好的預訓練模型應該(1)覆蓋盡可能多的信號類型,(2)當下游任務需要時,為這些信號提供精確的訪問機制。一般來說,這個新范式包含三個步驟:重構、預訓練、微調。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

重構、預訓練、微調的新范式凸顯了數據的重要性,研究人員需要在數據處理上投入更多的工程精力。

重構工程

信號定義

信號是數據中存在的有用信息,可以為機器學習模型提供監督,表示為 n 元組。例如「莫扎特出生在薩爾茨堡」,「莫扎特」、「薩爾茨堡」可以被認為是命名實體識別的信號。通常,可以從不同的角度對信號進行聚類,如下圖 6 所示。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

數據挖掘

現實世界的數據中包含很多不同類型的信號。重構預訓練使這些信號能夠充分被利用。該研究將收集到的信號(n 元組)組織在樹形圖中,如下圖 10 所示。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

信號提取

下一步該研究進行了信號提取和處理,涉及從不同模態的數據挖掘中獲取原始數據、數據清洗和數據規范化?,F有的方法大致分為兩種:(1)基于規則的,(2)基于機器學習的。在這項工作中,該研究主要關注基于規則的信號提取策略,并為未來的工作留下更多高覆蓋率的方法。

信號重構

在從各種數據挖掘中提取出不同的信號之后,接下來重要的一步是將它們統一成一個固定的形式,以便在預訓練期間將所有信息一致存儲在模型中。prompt 方法(Brown et al., 2020; Liu et al., 2021d)可以實現這個目標,原則上,通過適當的 prompt 設計,它幾乎可以將所有類型的信號統一為一種語言模型風格。

該研究將信號分為兩大類:通用信號和任務相關信號。前者包含基本的語言知識,可以在一定程度上使所有下游任務受益,而后者則可以使某些特定的下游任務受益。

在 55 種常用的 NLP 數據集上的實驗

該研究在 55 個數據集上進行評估,然后將它們分別與 GPT3 和 T0pp 進行比較。與 GPT3 比較的結果如圖所示:在除 cb 數據集之外的四個數據集上,RST-All 和 RST-Task 都具有比 GPT3 的小樣本學習更好的零樣本性能。此外,cb 數據集是這些數據集中最小的,驗證集中只有 56 個樣本,因此不同的 prompt 在該數據集上的性能會有較大的波動。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

與 T0pp 比較結果如表 4-6 所示。例如在 55 個測量的平均性能中,RST-All 在 49 個數據集上擊敗了 T0pp,并在 47/55 示例上以最大性能勝出。此外,在 55 個數據集的平均性能測試中,RST-Task 在 52 個數據集上優于 T0pp,并在 50/55 個示例下超越 T0pp。這說明重構學習的優越性。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

性能最佳的模型 RST-Task 擅長哪些任務?為了回答這個問題,該研究將 RST-Task 模型在零樣本設置中的性能與當前 SOTA 模型進行比較,結果如圖 13 所示。RST-Task 擅長主題分類、情感分類和自然語言推理任務,但在信息提取任務中表現較差。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

高考實驗:邁向人類水平的 AI

該研究收集了 10 份高考英語試卷,包括 2018 年國考 I/III、2019 年國考 I/II/III、2020 年國考 I/II/III、2021 年全國卷 A/B。這些試卷遵循相同的題型,他們將所有考試題型分為以下七個子類別,如表 7 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

每篇高考英語試卷滿分 150 分。聽力、完形填空、閱讀、寫作分別占 30、45、40、35。通常,寫作部分是主觀的,需要人工評估,而其他部分是客觀的,可以自動評分。如表 8 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

使用表 1 中所示的重構工程循環來構建高考英語 AI 系統,即 Qin。整個過程如圖 14 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

該研究使用以下 prompt 將原始信號元組轉換為 prompt 樣本,如表 9 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

實驗結果如表 10-11 所示,我們可以得出以下結論:在每一份英語試卷中,RST 在兩套聽力考試中取得了最高的總分,平均分數為 130.6 分;與 T0pp 相比,RST 的性能要遠遠優于相同模型大小下的 T0pp。在所有設置中,RST 獲得的總分平均比 T0pp 高出 54.5 分,最高差距為 69 分(占總分的 46%);與 GPT3 相比,RST 可以在模型大小小 16 倍的情況下取得明顯更好的結果。在所有考慮的設置中,RST 獲得的總分平均比 T0pp 高 14.0 分,最高為 26 分(占總分的 17%);對于 T0pp,使用黃金和語音轉文本成績單獲得的聽力分數差異很大,平均為 4.2 分。相比之下,GPT3 和 RST 分別為 0.6 和 0.45,表明 T0pp 的性能對文本質量很敏感。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

該研究進行了細粒度分析,以了解不同模型在不同問題子類別上的表現。在圖 15-(a) 中,很明顯 RST 和 GPT3 在每個問題子類別上都優于 T0pp。

圖 15-(b)為近年來模型的表現和學生在全國試卷上的平均表現。很明顯,T0pp 在 9/10 試卷上的總分低于學生的平均水平,而 RST 和 GPT3 的表現則超過了學生的平均水平。尤其是這十份試卷中有五份,RST 的總分超過了 130(通常被認為是學生爭取的目標分數)。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

2022 年高考 - 英語考試(2022.06.08)剛剛結束,了解到模型在最近一年的高考試卷中的表現。該研究用 GPT3 和 RST 進行實驗。結果顯示 RST 總分達到 134,遠高于 GPT3 達到的 108 分。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-10-28 09:19:29

模型人工智能Facebook

2021-03-23 15:21:00

人工智能機器學習技術

2024-06-19 10:48:31

ChatGPTGPT項目

2022-01-06 09:57:02

數據計算機神經網絡

2022-06-14 13:55:30

模型訓練網絡

2021-12-22 14:20:31

語言人工智能機器學習

2022-05-30 15:44:33

模型訓練GAN

2025-03-26 09:16:05

AI模型訓練

2023-01-06 11:27:43

ChatGPT人類GPT-3

2023-01-30 08:00:00

開發人工智能語言

2020-08-03 10:32:46

AI 數據人工智能

2020-11-18 19:08:30

人工智能自然語言技術

2025-03-03 02:00:00

DeepSeekAIToken

2020-09-30 10:56:13

Facebook 開發開源

2024-04-08 10:12:20

GPT4AgentAI

2024-03-27 13:32:00

AI數據

2025-05-30 07:40:56

2024-08-28 13:00:42

2021-07-13 17:38:49

算法語言模型GPT-4

2025-06-24 08:52:54

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产91久久久久久久免费 | 在线观看一区 | 亚洲欧美中文日韩在线v日本 | 综合精品在线 | av中文字幕网站 | 欧美一区中文字幕 | 欧美中文一区 | 久久国产精品-国产精品 | 亚洲视频二区 | 国产成人精品免费 | 精品亚洲一区二区三区 | 日韩欧美精品一区 | 亚洲视频免费播放 | 久久99久久久久 | 一本大道久久a久久精二百 国产成人免费在线 | 五月激情综合 | 成人精品一区二区 | 青青久在线视频 | 奇米av| 综合久久一区 | 欧美精品国产一区二区 | 狠狠的干狠狠的操 | 欧美v片| 91视频国产一区 | 国产丝袜一区二区三区免费视频 | 亚洲国产成人精品女人久久久 | 伊人伊人伊人 | 亚洲成人黄色 | 国产欧美精品一区二区三区 | 日本二区在线观看 | 亚洲综合色自拍一区 | 日韩成人一区二区 | 奇米av | 在线视频一区二区三区 | 精品一区二区在线看 | 翔田千里一区二区 | 黄色在线播放视频 | 欧美日韩精品一区二区三区蜜桃 | 午夜手机在线视频 | 国产精品久久久久aaaa | 亚洲日韩中文字幕一区 |