成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

新聞 人工智能
CMU 聯(lián)合復(fù)旦、俄亥俄州立大學(xué)的研究者推出了一個將模型可理解分析和模型評價排行榜結(jié)合起來的科研輔助工具 ExplainaBoard

  [[396522]]

CMU 聯(lián)合復(fù)旦、俄亥俄州立大學(xué)的研究者推出了一個將模型可理解分析和模型評價排行榜結(jié)合起來的科研輔助工具 ExplainaBoard,能夠完成單系統(tǒng)診斷、數(shù)據(jù)集分析以及可信度分析等任務(wù),有效提升科研人員的學(xué)術(shù)體驗。

你是否在讀論文的時候覺得別人的 idea 很有道理,可自己設(shè)計 idea 時卻無從下手?你是否經(jīng)常因為「模型效果好,但是沒有給出有深度且全面的解釋」而被審稿人給低分?

當你厭倦了挖掘新的模型結(jié)構(gòu)時,是否對數(shù)據(jù)集特性的挖掘感興趣,從而引領(lǐng)一個更加健康的領(lǐng)域發(fā)展方向?在剛接觸一個新領(lǐng)域時,如何做到:既能快速了解該領(lǐng)域目前發(fā)展的狀況,又能快速了解它的瓶頸?

還記得不久前引起網(wǎng)絡(luò)熱議的自動審稿系統(tǒng)么?這支來自 CMU 的 團隊日前又發(fā)布了一個可解釋的系統(tǒng)排行榜(ExplainaBoard),它被定位成一個科研輔助產(chǎn)品,巧妙地把「模型可理解分析」和「模型評價排行榜」兩個看似無關(guān)的元素結(jié)合,將平時科研中很多被我們忽略卻很重要的部分轉(zhuǎn)化成「一鍵式」操作,從而提升科研人員做學(xué)術(shù)的體驗。

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

系統(tǒng)鏈接:
http://explainaboard.nlpedia.ai/

論文鏈接:
https://arxiv.org/pdf/2104.06387.pdf

目前,ExplainaBoard 在單任務(wù)上支持分類、抽取、生成在內(nèi)的9個主流 NLP 任務(wù),涉及40多個數(shù)據(jù)集、300多個模型;在多任務(wù)上,支持多語言評價基準,包含40多種語言和9個跨語言任務(wù)。

技術(shù)解讀

隨著深度學(xué)習(xí)模型的快速發(fā)展,排行榜(Leaderboard)已經(jīng)成為一種用來追蹤各種系統(tǒng)性能的主流工具。然而,由于在排行榜上排名靠前的模型所具有的聲望,很多研究人員只關(guān)注提高評估指標的數(shù)字,而忽略了對模型特性更深入的科學(xué)理解。

ExplainaBoard 就是在這樣的背景下誕生的,它不僅可以排序不同的模型,還提供了很多與模型和數(shù)據(jù)集相關(guān)的——可理解、可交互和可信賴的分析機制(如下圖所示):

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

具體說來,它可以完成以下功能:

單系統(tǒng)診斷

可以解決的問題:「我設(shè)計的模型擅長 / 不擅長做什么?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

系統(tǒng)對診斷

可以解決的問題:「我設(shè)計的模型比別人的好在哪里?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

數(shù)據(jù)集分析

可以解決的問題:「數(shù)據(jù)集的特點是什么?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

共有錯誤分析

可以解決的問題:「排名 Top-5 的系統(tǒng)共同錯誤預(yù)測是什么?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

細粒度錯誤分析

可以解決的問題:「模型錯誤預(yù)測主要發(fā)生在哪兒,以及具體是哪些錯誤?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

系統(tǒng)組合

可以解決的問題:「將排名 Top-5 的系統(tǒng)組合在一起,會得到一個更強大的系統(tǒng)么?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

可信度分析

可以解決的問題:「模型預(yù)測結(jié)果的可信程度有多高?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

校準分析

可以解決的問題:「預(yù)測的可信度是如何校準其正確性的?

NLP模型「可理解分析+評價排行榜」,CMU最新工具助你找到好idea

應(yīng)用前景

在應(yīng)用上,據(jù)該項目負責(zé)人劉鵬飛博士介紹,ExplainaBoard 目前收到了 DeepMind、Google、Huggingface 和 Paperswithcode 等多家企業(yè)的合作邀請以及投資人的青睞。

比如,Google & Deepmind 最新 arXiv 工作 XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation 使用 ExplainaBoard 升級了他們的多語言評測基準。

 

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2011-11-03 11:02:00

瀏覽器排行榜

2013-08-23 09:41:19

2019-08-13 19:09:33

程序員薪資職業(yè)

2025-05-07 08:21:01

2014-07-30 12:56:56

2022-07-05 14:36:48

算法人工智能

2022-06-17 12:10:07

RPA機器人流程自動化

2025-03-10 12:10:00

RedisJava排行榜

2020-03-07 22:01:58

編程語言JavaPython

2024-05-15 17:21:18

RedisSpring數(shù)據(jù)

2019-10-21 10:59:52

編程語言JavaC

2019-08-16 15:45:52

程序員最新收入人工智能

2022-08-09 08:29:50

TIOBE編程語言排行榜程序員

2022-06-08 13:50:41

AI專業(yè)排行

2025-01-02 13:07:24

2018-02-08 09:19:34

linux

2023-06-09 15:39:40

編程語言Python

2019-07-23 14:14:59

編程語言JavaPython

2020-08-13 11:55:33

編程語言JavaPython

2020-02-14 09:19:12

編程語言JavaPython
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美综合国产精品久久丁香 | 免费在线性爱视频 | av中文字幕在线观看 | 国产片侵犯亲女视频播放 | 亚洲精品中文字幕在线观看 | 先锋资源吧 | 久久99精品视频 | 欧美激情综合网 | 成人精品鲁一区一区二区 | h视频在线观看免费 | 国产成人a亚洲精品 | 一区二区三区欧美在线 | 欧美伊人久久久久久久久影院 | 一级在线 | 久久久久久国产免费视网址 | 性福视频在线观看 | 一区二区三区国产精品 | 超碰在线播 | 99精品国产一区二区青青牛奶 | 超碰伊人久久 | 国产7777| 日韩综合一区 | 成人av一区 | 91久久精品国产免费一区 | 国产精品www | 91视频麻豆 | 久久综合一区 | 久久久久国产 | 国产综合在线视频 | 天堂在线中文字幕 | 午夜激情视频在线 | 久久躁日日躁aaaaxxxx | 精品毛片 | 国产精品久久久久久一区二区三区 | hdfreexxxx中国妞 | 亚洲精品久久久久久久久久久 | 欧美高清视频一区 | 九九伦理片 | 欧美啊v在线观看 | 亚洲欧洲精品一区 | 欧美性生交大片免费 |