成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1億組圖文對,填補(bǔ)中文開源多模態(tài)數(shù)據(jù)集空白

開源
華為諾亞方舟實驗室開源的第一個億級中文多模態(tài)數(shù)據(jù)集,不僅規(guī)模大——包含1億組圖文對,而且質(zhì)量也很高。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

華為諾亞方舟實驗室開源了第一個億級中文多模態(tài)數(shù)據(jù)集:悟空。

這個新發(fā)布的數(shù)據(jù)集不僅規(guī)模大——包含1億組圖文對,而且質(zhì)量也很高。

所有圖像都是篩選過的,長寬都在200個像素以上,比例從1/3-3不等。

而和圖像對應(yīng)的文本也根據(jù)其語言、長度和頻率進(jìn)行了過濾,隱私和敏感詞也都考慮在內(nèi)。

例如這一組數(shù)據(jù)集中的例子,內(nèi)容還相當(dāng)新,像進(jìn)門掃碼登記,社區(qū)疫苗接種的防疫內(nèi)容都有。

這一波可以說是填上了大規(guī)模中文多模態(tài)數(shù)據(jù)集的缺口。

悟空數(shù)據(jù)集

自一年前OpenAI的CLIP+Dall·E組合開啟新一輪多模態(tài)學(xué)習(xí)浪潮以來,算上后續(xù)的ALIGN和FILIP,都在視覺語言預(yù)訓(xùn)練(VLP)領(lǐng)域表現(xiàn)優(yōu)異。

世界范圍內(nèi)的成功離不開大規(guī)模數(shù)據(jù)集的支持,但中文開源數(shù)據(jù)方面,有是有,規(guī)模大的不多。

有了“悟空”數(shù)據(jù)集之后,就可以支持更多預(yù)訓(xùn)練模型用于下游任務(wù)。

數(shù)據(jù)集之外,團(tuán)隊還附贈了一款基本模型,參考了流行的文本圖像雙編碼器架構(gòu):

其中視覺標(biāo)記和文本標(biāo)記作為輸入。然后,將兩種模式的輸入標(biāo)記連接起來,并用位置嵌入來顯示標(biāo)記位置。

有意思的一點是,這里的圖像編碼器是從英文數(shù)據(jù)集上訓(xùn)練的,上面預(yù)加載并鎖定了從外部模型中訓(xùn)練的英文數(shù)據(jù)集中的權(quán)重。

但是仍然可以中文文本進(jìn)行跨模態(tài)預(yù)訓(xùn)練,在下游任務(wù)中也表現(xiàn)得很好。

除此之外,華為諾亞還提供了不同下游任務(wù)的基準(zhǔn)測試

例如零樣本圖像分類,下圖中除了WukongViT-500M,其他的悟空模型變體都是在這個一億的數(shù)據(jù)庫上訓(xùn)練的:

再比如在圖像檢索文本和文本檢索圖像這兩個任務(wù)上,在五個不同的數(shù)據(jù)集上的測試結(jié)果如下:

而這也證明了將在英語數(shù)據(jù)集上預(yù)訓(xùn)練的圖像編碼器應(yīng)用于中文多模態(tài)預(yù)訓(xùn)練的良好效果。未來也可能會探索更多的解決方案,利用悟空數(shù)據(jù)集訓(xùn)練多語言跨模態(tài)模型。

目前悟空數(shù)據(jù)集在官網(wǎng)即可下載(鏈接在文末),趕快用起來吧~

數(shù)據(jù)集地址:

https://wukong-dataset.github.io/wukong-dataset/benchmark.html

論文地址:

https://arxiv.org/abs/2202.06767

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-02-25 23:38:29

開源數(shù)據(jù)庫算法

2025-04-28 09:14:00

2020-07-06 10:59:00

智慧城市大數(shù)據(jù)人工智能

2024-07-29 08:52:00

模型數(shù)據(jù)

2024-12-18 18:57:58

2022-08-05 08:48:16

員工技能數(shù)據(jù)

2015-07-17 11:00:30

DCIMBMS數(shù)據(jù)中心

2009-05-14 17:47:51

屏蔽配線綜合布線智能布線

2024-06-17 18:06:17

2025-05-14 08:51:00

2025-03-19 09:30:00

2024-07-04 10:13:18

2023-11-29 13:52:00

模型訓(xùn)練

2023-11-07 18:08:03

GPT-4模型

2025-03-12 13:09:16

2009-06-25 18:20:46

云計算虛擬化IT

2014-09-23 14:37:22

Wi-FiGPS定位

2016-08-23 17:33:58

騰訊云云數(shù)據(jù)庫Postgre

2025-01-08 08:21:16

2025-05-06 08:40:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区二区视屏 | 欧美人成在线视频 | 超碰97人人人人人蜜桃 | 一区二区久久 | 成人av鲁丝片一区二区小说 | 91麻豆精品国产91久久久久久 | 在线欧美 | 欧美欧美欧美 | 久久久久久久一级 | 亚洲综合大片69999 | 能看的av | 综合久久综合久久 | 午夜小视频免费观看 | 美女黄频| 久久精品一区二区三区四区 | 亚洲激情在线观看 | 国产精品成人一区二区三区夜夜夜 | 亚洲精选久久 | 欧美成人手机在线 | 青青草av网站 | 久久精品国产免费 | 免费99视频 | 午夜精品久久久 | 久久综合伊人 | 国产精品久久久久久久久久久久 | 日韩电影一区 | 亚洲 欧美 日韩在线 | av中文字幕在线播放 | 欧美日韩在线一区二区三区 | 欧美日韩视频网站 | 一级免费a | 免费观看一区二区三区毛片 | 亚洲一区二区三区四区五区中文 | 一区二区三区小视频 | 免费一级欧美在线观看视频 | 成人精品视频99在线观看免费 | 午夜精品一区二区三区在线观看 | 国产高清一区二区三区 | 国产精品毛片一区二区三区 | 日韩二区| 一级片视频免费 |