成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

新聞 深度學習
就在近日,阿里巴巴達摩院宣布正式開源 AliceMind。達摩院相關負責人表示,希望通過開源來降低業界研究和創新應用的門檻,助推語言 AI 進入大工業時代。

 [[406821]]

自然語言處理(NLP)被譽為 AI 皇冠上的明珠,傳統 NLP 模型制作復雜,耗時耗力,且用途單一,難以復用,猶如手工作坊。而近幾年興起的預訓練語言模型,正在改變局面,有望讓語言 AI 走向可規?;瘡椭频墓I時代。因此,「預訓練 + 精調」已成為 NLP 任務的新范式。

阿里巴巴達摩院作為最早投入預訓練語言模型研究的團隊之一,歷經三年研發出深度語言模型體系 AliceMind, 在通用語言模型 StructBERT 的基礎上,拓展到多語言、生成式、多模態、結構化、知識驅動等方向,能力全面。其中的模型先后登頂 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 在內的自然語言處理領域六大權威榜單,領先業界,相關工作論文被 AI/NLP 頂會接收,并在 6 月入選 2021 世界人工智能大會最高獎 SAIL 獎 TOP30 榜單。

上周 AliceMind 再次登頂多模態權威榜單 VQA Challenge 2021 視覺問答挑戰賽,戰勝了微軟、Facebook 等幾十家國際頂尖團隊,超越第二名 1 個點,將紀錄從去年第一名的 76.36% 顯著提升到 79.78%,接近人類水平(80.78%)。

就在近日,阿里巴巴達摩院宣布正式開源 AliceMind。達摩院相關負責人表示,希望通過開源來降低業界研究和創新應用的門檻,助推語言 AI 進入大工業時代。

據介紹,達摩院深度語言模型體系 AliceMind,包括通用語言模型 StructBERT、多語言 VECO、生成式 PALM、多模態 StructVBERT、結構化 StructuralLM、知識驅動 LatticeBERT、機器閱讀理解 UED、超大模型 PLUG 等,此次大部分已開源。此外,AliceMind 之后將圍繞「預訓練 + 精調」語言模型持續進行生態性的技術開源。

AliceMind 開源地址:
https://github.com/alibaba/AliceMind

AliceMind 體驗入口:
https://nlp.aliyun.com/portal#/alice

AliceMind 的創新之處

1、通用語言模型 StructBERT

Google 于 2018 年底推出的 BERT 模型是業界廣泛使用的自然語言預訓練模型,達摩院團隊在 BERT 的基礎上提出優化模型 StructBERT,讓機器更好地掌握人類語法,理解自然語言,2020 年多次在自然語言處理領域頂級賽事 GLUE Benchmark 上奪冠。

StructBERT 通過在句子級別和詞級別引入兩個新的目標函數,好比給機器內置一個「語法識別器」,使機器在面對語序錯亂或不符合語法習慣的詞句時,仍能準確理解并給出正確的表達和回應,大大提高機器對詞語、句子以及語言整體的理解力。相關論文被 ICLR2020 接收。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

2、多語言語言模型 VECO

跨語言預訓練初衷是為多種語言建立起一個統一聯合的語義表示,AliceMind 體系內的跨語言預訓練模型 VECO 一經提出,便在國際權威多語言榜單 XTREME 排名第一,遠超 Facebook、Microsoft 等業界代表性模型。VECO 目前支持 100 種語言的理解和生成任務。

VECO 效果亮眼,主要是因為兩項創新:一是其可以更加「顯式」地進行跨語言信息的建模(圖 1);二是 VECO 在預訓練的過程充分學習用于語言理解(NLU)和生成(NLG)任務,并讓二者互相學習提高彼此(圖 2)。因此,VECO 模型成為了多語言領域內的第一個同時在多語言理解(NLU)和語言生成(NLG)任務上均取得業內最佳效果的模型,相關論文被頂會 ACL 2021 接收。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

圖 1

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

圖 2

3、生成式語言模型 PALM

PALM 采用了與之前的生成模型不同的預訓練方式,將預測后續文本作為其預訓練目標,而非重構輸入文本。PALM 在一個模型中使用自編碼方式來編碼輸入文本,同時使用自回歸方式來生成后續文本。這種預測后續文本的預訓練促使該模型提高對輸入文本的理解能力,從而在下游的各個語言生成(NLG)任務上取得更好的效果。

PALM 在 MARCO NLG 自然語言生成公開評測上取得了排行榜第一,同時在摘要生成標準數據集 CNN/DailyMail 和 Gigaword 上也超過了現有的各個預訓練生成語言模型。PALM 可被用于問答生成、文本復述、回復生成、文本摘要、Data-to-Text 等生成應用上。相關文章已被頂會 ACL2020 錄用。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

4、多模態語言模型 StructVBERT

StructVBERT 是在通用的 StructBERT 模型基礎上,同時引入文本和圖像模態,在統一的多模態語義空間進行聯合建模,在單流架構的基礎上同時引入圖像 - 文本描述數據和圖像問答數據進行多任務預訓練,并在多尺度的圖像特征上進行分階段預訓練。此外,模型利用 attention mask 矩陣控制實現雙流架構,從而提升跨模態雙流建模能力,結合單流、雙流結構的優點進一步提升模型對文本和圖像兩個模態的理解能力。相關文章已被頂會 ACL2021 錄用。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

5、結構化語言模型 StructuralLM

StructuralLM 在語言模型 StructBERT 的基礎上擴展到結構化語言模型,充分利用圖片文檔數據的 2D 位置信息,并引入 box 位置預測的預訓練任務,幫助模型感知圖片不同位置之間詞語的關系,這對于理解真實場景中的圖片文檔十分重要。Structural LM 模型在 DocVQA 榜單上排名第一,同時在表單理解 FUNSD 數據集和文檔圖片分類 RVL-CDIP 數據集上也超過現有的所有預訓練模型。相關文章已被頂會 ACL2021 錄用。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

6、機器閱讀理解模型 UED

自最開始聲名大噪的 SQuAD 榜單起,阿里圍繞著機器閱讀理解發展路線:單段落抽取 -> 多文檔抽取 / 檢索 -> 多文檔生成 -> 開放式閱讀理解,拿下了一系列的榜單冠軍:

  • 2018 年在單段落機器閱讀理解領域頂級賽事 SQuAD 上首次超出人類回答精準率;
  • 2018 年在多文檔機器閱讀理解權威比賽 TriviaQA 和 DuReader 上雙雙刷新紀錄,取得第一名;
  • 2019 年在信息檢索國際頂級評測 TREC 2019 Deep Learning Track 上的段落檢索和文檔檢索任務上均取得第一名;
  • 2019 年在機器閱讀理解頂級賽事 MS MARCO 的段落排序、多文檔答案抽取以及多文檔答案生成 3 個任務均取得第一名,并在多文檔答案抽取任務上首次超越人類水平。

相關論文已被 AAAI2021 接收。

7、超大規模中文理解和生成統一模型 PLUG

PLUG 是目前中文社區已開放 API 的最大規模的純文本預訓練語言模型,集語言理解與生成能力于一身。PLUG 可為目標任務做針對性優化,通過利用下游訓練數據精調模型使其在該特定任務上生成質量達到最優,彌補之前其它大規模生成模型 few-shot 推理的生成效果不足,適于應用在實際生成任務。同時,PLUG 采用 encoder-decoder 的雙向建模方式,因此,在傳統的 zero-shot 生成的表現上,無論是生成的多樣性,領域的廣泛程度,還是生成長文本的表現,較此前的模型均有明顯的優勢。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

8. 知識驅動的語言模型 LatticeBERT

LatticeBERT 在預訓練模型中訓練中有效地融合了詞典等知識,從而能夠同時建模字和詞的結構,來線性化地表示這種混合粒度的輸入。第一步是將涵蓋多粒度字詞信息的中文文本用詞格(Lattice)表示起來,再把這個詞格線性化作為 BERT 的輸入。LatticeBERT 在 2020 年 9 月達到中文語義理解評估基準 CLUE 榜單的 base 模型中的第一名。

橫掃六大權威榜單,達摩院自家深度語言模型體系AliceMind開源了

霸榜背后,是 AliceMind 持續創新和進化。達摩院團隊在 BERT 基礎上提出優化模型 StructBERT,2020 年多次在 NLP 頂級賽事 GLUE Benchmark 上奪冠。該模型通過在句子和詞級別引入兩個新的目標函數,好比給 AI 裝上「語法識別器」,在面對語法錯亂時,AI 依然能準確理解并給出正確回應,大大提高機器對語言的整體理解力,相關文章被 NAACL2021 錄用。

而此次在 VQA Challenge 2021 登頂的多模態模型 StrucVBERT,融合了通用模型 StructBERT 和結構化模型 StructuralLM,同時引入文本和圖像模態,利用更高效的視覺特征和創新的注意力機制在統一的多模態語義空間進行聯合建模。

AliceMind 的應用情況

AliceMind 具有閱讀、寫作、翻譯、問答、搜索、摘要生成、對話等多種能力,目前已成為阿里的語言技術底座,日均調用量超過 50 億次,活躍場景超過 200 個,已在跨境電商、客服、廣告等數十個核心業務應用落地。AliceMind 已上線到內部平臺,開箱即用,目前支持訓練、精調、蒸餾、測試、部署五大功能,只需簡單操作即可完成語言模型從訓練到部署的完整鏈路。

在阿里之外,AliceMind 廣泛運用于醫療、能源、金融等多個行業。其中,浙江電網公司以 AliceMind 為底座為員工構建智能化運維平臺,應用于變壓器檢修、供電搶修等業務,已經開始在國家電網公司統一推廣。

阿里達摩院深度語言模型團隊負責人黃松芳表示:「預訓練語言模型已成為 NLP 領域的基石和原材料,AliceMind 開源將降低 NLP 領域研究和應用創新的門檻,助推行業從手工業時代走向大工業時代?!?/p>

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-08-26 13:18:19

AI 數據人工智能

2021-12-02 13:43:42

達摩院AliceMind人工智能

2023-06-08 11:45:50

模型語言

2023-08-14 07:20:10

2023-05-10 15:49:10

NLP語言模型

2025-02-28 12:32:42

2009-06-10 17:13:50

Java開源軟件

2022-08-17 10:39:44

AI阿里達摩院文檔智能

2021-04-19 11:02:06

阿里云達摩院AI

2022-02-25 20:44:28

框架深度學習架構

2010-08-10 13:42:27

Flex開源項目

2010-07-29 16:31:34

Flex開源項目

2024-04-19 07:55:57

Llama 3模型人工智能開源

2020-08-18 14:39:15

阿里達摩院求解器

2021-01-13 12:39:46

科技趨勢電子器件量子霸權

2022-07-01 05:58:38

開源技術開源

2022-07-04 23:16:21

開源技術容器

2018-06-07 16:00:28

阿里巴巴語音識別開源

2020-02-17 09:42:09

編程語言JavaWindows

2010-05-18 15:54:25

IIS 7.0
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区电影网 | 中文一区| 91久久久久久久久久久久久 | 皇色视频在线 | 欧美久久国产精品 | 国产偷久久一级精品60部 | 岛国一区 | 欧美一二三区 | 国产成人精品一区二区三区在线观看 | 91小视频在线 | 国产资源在线播放 | 国产在线h | 国产精品久久久久久久久久久免费看 | 国产精品一区二区视频 | 精品国产乱码久久久久久影片 | 欧美激情一区二区 | 国产视频二区 | 日韩国产在线观看 | 男女免费视频网站 | 一区欧美 | 国内精品视频免费观看 | 欧美一区二区三区 | 欧美精品一区二区三区四区五区 | 久久久久亚洲国产| 在线播放日韩 | 国产精品美女久久久久久免费 | 国产高清在线精品一区二区三区 | 国产精品毛片久久久久久 | 欧美三级成人理伦 | 国产精品一区二区久久 | 99这里只有精品视频 | 国产精品毛片无码 | 国产成人精品久久二区二区91 | 亚洲成人精 | 欧美精品video | 一呦二呦三呦国产精品 | 色婷婷综合久久久中字幕精品久久 | 国产精品视频偷伦精品视频 | 99精品视频免费观看 | 国产羞羞视频在线观看 | 欧美日韩久久精品 |