成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

牛津大學最新調(diào)研:AI面臨基準危機,NLP集中“攻關”推理測試

人工智能 新聞
近日,維也納醫(yī)科大學和牛津大學的研究人員對AI基準圖譜進行了調(diào)查,共統(tǒng)計了2013年以來CV和NLP領域的406項任務的1688項基準。

人工智能(AI)基準為模型提供了衡量和比較的路徑,超越基準,達到SOTA,經(jīng)常成為頂會論文的標配。同時,有些基準確實推動了AI的發(fā)展,例如ImageNet 基準測試對近幾年的熱潮功不可沒。

如今,ImageNet 基準仍然在研究中發(fā)揮核心作用,一些新模型,例如谷歌的Vision Transformer在論文中仍然與ImageNet方法進行比較。

但,如果某一基準的分數(shù)一直占據(jù)榜首,后續(xù)沒有高質(zhì)量基準引入,那么這種依靠基準推動發(fā)展的“路子”就有問題。

近日,維也納醫(yī)科大學和牛津大學的研究人員對AI基準圖譜進行了調(diào)查,共統(tǒng)計了2013年以來CV和NLP領域的406項任務的1688項基準。發(fā)現(xiàn):很大一部分基準迅速趨于接近飽和,還有一部分基準被擱置;同時,在NLP領域,從2020年開始,新基準的建立減少,方向轉向推理或推理相關的高級任務上。

在文中,作者呼吁,未來的工作應該著重于大規(guī)模的社區(qū)合作,以及將基準性能與現(xiàn)實世界效用和影響相聯(lián)系。

1.33%的AI基準被“擱置”

從單個基準出發(fā),如上圖可以看出基準上的SOTA有三種狀態(tài):穩(wěn)定增長,停滯或飽和,以及停滯后的飛躍。其中,穩(wěn)定增長代表技術穩(wěn)定;停滯背后代表缺乏技術進步的能力;而爆發(fā)是指技術出現(xiàn)突破。

事實上,近年來,關鍵領域,如NLP,有相當一部分新基準迅速趨于飽和,或者設計針對特定基準特征過度優(yōu)化的模型,而這些模型往往無法泛化到其他數(shù)據(jù)中。

目前,這些現(xiàn)象已經(jīng)蔓延到相同領域的不同基準中,例如上圖,CIFAR-10和CIFAR-100的狀態(tài)。

同時,數(shù)量方面也出現(xiàn)了尷尬的局面,例如《2021年的人工智能指數(shù)報告》指出,CV基準數(shù)量或許能滿足日益增長的任務需求;而NLP模型的增長速度正在超過現(xiàn)有的問答和自然語言理解基準。

Martínez-Plumed等學者分析了 CIFAR-100 和 SQuAD1.1 等 25 個流行 AI 基準背后“故事”,他們發(fā)現(xiàn)“SOTA 前沿”由某些長期協(xié)作的社區(qū)主導,例如美國或亞洲大學與科技公司共同合作的組織。

此外,其他學者分析了大量 AI 基準測試工作中數(shù)據(jù)集使用和再利用的趨勢,他們發(fā)現(xiàn),很大一部分“知名”數(shù)據(jù)集是由少數(shù)高知名度的組織提出,其中一些數(shù)據(jù)集被越來越多地重新用于新的任務。NLP是個例外,它對新的、特定任務的基準的引入和使用超過了平均水平。

在這項研究中,維也納醫(yī)科大學和牛津大學的研究人員表明:飽和和擱置非常常見。總體看來有以下幾個趨勢:

1.缺乏研究興趣是導致停滯不前的原因之一;

2.所有基準中的大多數(shù)很快就會達到技術停滯或飽和;

3.在某些情況下,會出現(xiàn)持續(xù)增長,例如在 ImageNet 基準測試中;

4.性能改進的動態(tài)變化并不遵循一個清晰可辨的模式:在某些情況下,停滯階段之后是不可預測的飛躍。

圖注:基準有三種發(fā)展趨勢:穩(wěn)定增長,停滯或飽和,以及停滯后的飛躍。

此外,在1688個基準中,只有66%的基準充分被利用,換言之33%的基準被擱置。同時,基準測試的另一個趨勢是:被某些既定機構和公司的數(shù)據(jù)集主導。

2.NLP基準正面向高難度的任務

過去幾年,CV領域的基準占據(jù)主導地位,但NLP也開始了蓬勃發(fā)展。2020年,新基準的數(shù)量有所下降,越來越多地集中在難度較高的任務上,例如測試推理的任務,例如BIG-bench和NetHack,前者屬于谷歌,后者來自Facebook。

上圖是NLP的基準生命周期展示,可以清晰看出,大多數(shù)任務的幾個主流基準是在2011~2015年間建立的,這期間,也只有少數(shù)幾個SOTA出現(xiàn)。2016年之后,新基準的建立速度大大加快,在翻譯和自然語言建模方面表現(xiàn)最為突出;2018和2019年,分別都針對各種任務建立了大量的基準;2020年是個轉折點,新基準的建立減少,方向轉向推理或推理相關的高級任務上。

整體來說,當前AI基準的趨勢是:來自既定機構(包括工業(yè)界)的基準的趨勢引起了人們對基準的偏見和代表性的關注;許多基準并不能完全將AI性能與現(xiàn)實世界相匹配,因此,開發(fā)少量但有質(zhì)量保證,涵蓋多種AI能力、場景的基準可能是可取的。

最后,研究人員展望,在未來,新的基準應該由來自許多機構、知識領域的大型合作團隊開發(fā),如此才能確保建立高質(zhì)量的基準。

責任編輯:張燕妮 來源: AI科技評論
相關推薦

2022-09-30 11:55:36

AI算力

2025-05-13 15:10:50

AI用戶模型

2024-05-21 09:41:15

3DLLM

2024-07-10 13:20:45

2025-04-14 00:10:00

人工智能AIAI 模型

2024-04-23 09:30:07

3D模型

2025-04-01 09:10:00

2021-03-23 13:49:21

人工智能機器學習

2024-11-29 14:10:00

神經(jīng)網(wǎng)絡AI

2023-12-26 12:12:01

模型訓練

2020-04-02 14:43:34

Python 程序算法

2018-10-10 13:57:32

區(qū)塊鏈技術智能

2018-08-27 11:48:04

搜狗

2021-04-22 15:25:29

AI 數(shù)據(jù)人工智能

2022-03-10 15:35:12

深度學習人工智能GNN

2020-10-09 10:37:53

神經(jīng)網(wǎng)絡數(shù)據(jù)圖形

2022-10-09 14:53:35

機器學習

2014-08-01 09:12:52

NoSQL

2019-06-25 08:10:56

AI人工智能

2024-12-23 14:30:00

AI模型數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99久久国产综合精品麻豆 | 欧美在线观看免费观看视频 | 成人精品在线观看 | 国产成人综合在线 | 成人国产精品一级毛片视频毛片 | 超碰婷婷| 亚洲欧洲在线视频 | av一区二区在线观看 | 婷婷综合久久 | 国产亚洲一区二区三区 | 久久夜视频 | 成人久久一区 | 草久久久 | 日韩精品成人av | 国产成人精品一区二区 | 久久久久国产一区二区三区 | 日韩视频在线观看一区二区 | av午夜激情 | 国产在线网站 | 久久一二区 | 美女久久视频 | 国产精品久久久久久久久久免费看 | 狠狠综合久久av一区二区老牛 | 亚洲入口| 久久高清 | 亚洲国产成人av好男人在线观看 | 成人欧美一区二区三区在线观看 | 免费成人毛片 | 国产一区二区精品在线观看 | 午夜影院免费体验区 | 盗摄精品av一区二区三区 | 中文字幕1区| 久久精品国产99国产精品亚洲 | 日本一区二区三区四区 | 亚洲精品18 | 久久人| 国产精品海角社区在线观看 | 国内av在线 | 久久久久久99 | 国产在线精品一区二区 | japanhdxxxx裸体|