成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通用數(shù)據(jù)增強(qiáng)技術(shù),隨機(jī)量化適用于任意數(shù)據(jù)模態(tài)

人工智能 新聞
本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)技術(shù)。

自監(jiān)督學(xué)習(xí)算法在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域取得了重大進(jìn)展。這些自監(jiān)督學(xué)習(xí)算法盡管在概念上是通用的,但是在具體操作上是基于特定的數(shù)據(jù)模態(tài)的。這意味著需要為不同的數(shù)據(jù)模態(tài)開發(fā)不同的自監(jiān)督學(xué)習(xí)算法。為此,本文提出了一種通用的數(shù)據(jù)增強(qiáng)技術(shù),可以應(yīng)用于任意數(shù)據(jù)模態(tài)。相較于已有的通用的自監(jiān)督學(xué)習(xí),該方法能夠取得明顯的性能提升,同時(shí)能夠代替一系列為特定模態(tài)設(shè)計(jì)的復(fù)雜的數(shù)據(jù)增強(qiáng)方式并取得與之類似的性能。

  • 論文地址:https://arxiv.org/abs/2212.08663
  • 代碼:https://github.com/microsoft/random_quantize

簡介

當(dāng)前 Siamese 表征學(xué)習(xí) / 對比學(xué)習(xí)需要利用數(shù)據(jù)增強(qiáng)技術(shù)來構(gòu)建同一個(gè)數(shù)據(jù)的不同樣本,并將其輸入兩個(gè)并行的網(wǎng)絡(luò)結(jié)構(gòu),從而產(chǎn)生足夠強(qiáng)的監(jiān)督信號。然而這些數(shù)據(jù)增強(qiáng)技術(shù)往往非常依賴于模態(tài)特定的先驗(yàn)知識,通常需要手動設(shè)計(jì)或者搜索適用于當(dāng)前模態(tài)的最佳組合。除了耗時(shí)耗力外,找到的最優(yōu)數(shù)據(jù)增強(qiáng)方式也極難遷移到別的領(lǐng)域。例如,常見的針對于自然 RGB 圖像的顏色抖動(color jittering)無法應(yīng)用于除了自然圖像以外的其他數(shù)據(jù)模態(tài)。

一般性地,輸入數(shù)據(jù)可以被表征為由序列維度(sequential)和通道維度(channel)組成的二維向量。其中序列維度通常是模態(tài)相關(guān)的,例如圖像上的空間維度、語音的時(shí)間維度以及語言的句法維度。而通道維度是模態(tài)無關(guān)的。在自監(jiān)督學(xué)習(xí)中,masked modeling [1] 或者以 masking 作為數(shù)據(jù)增強(qiáng) [2] 已經(jīng)成為一種有效的學(xué)習(xí)方式。然而這些操作都作用于序列維度。為了能夠廣泛應(yīng)用于不同數(shù)據(jù)模態(tài),本文提出一種作用于通道維度的數(shù)據(jù)增強(qiáng)手段:隨機(jī)量化(randomized quantization)。每個(gè)通道中的數(shù)據(jù)通過非均勻量化器進(jìn)行動態(tài)量化,量化值是從隨機(jī)劃分的區(qū)間中隨機(jī)采樣的。通過這種方式,落在同一個(gè)區(qū)間內(nèi)原始輸入的信息差被刪除,同時(shí)不同區(qū)間數(shù)據(jù)的相對大小被保留,從而達(dá)到 masking 的效果。

該方法在各種不同數(shù)據(jù)模態(tài)上超過了已有任意模態(tài)自監(jiān)督學(xué)習(xí)方法,包括自然圖像、3D 點(diǎn)云、語音、文本、傳感器數(shù)據(jù)、醫(yī)療圖像等。在多種預(yù)訓(xùn)練學(xué)習(xí)任務(wù)中,例如對比學(xué)習(xí)(例如 MoCo-v3)和自蒸餾自監(jiān)督學(xué)習(xí)(例如 BYOL)都學(xué)到了比已有方法更優(yōu)的特征。該方法還經(jīng)過驗(yàn)證,適用于不同的骨干網(wǎng)絡(luò)結(jié)構(gòu),例如 CNN 和 Transformer。

方法

量化(Quantization)指的是利用一組離散的數(shù)值表征連續(xù)數(shù)據(jù),以便于數(shù)據(jù)的高效存儲、運(yùn)算以及傳輸。然而,一般的量化操作的目標(biāo)是在不損失精確度的前提下壓縮數(shù)據(jù),因而該過程是確定性的,而且是設(shè)計(jì)為與原數(shù)據(jù)盡量接近的。這就限制了其作為增強(qiáng)手段的強(qiáng)度和輸出的數(shù)據(jù)豐富程度。

本文提出一種隨機(jī)量化操作(randomized quantization),將輸入的每個(gè) channel 數(shù)據(jù)獨(dú)立劃分為多個(gè)互不重疊的隨機(jī)區(qū)間(圖片),并將落在各個(gè)區(qū)間內(nèi)的原始輸入映射到從該區(qū)間內(nèi)隨機(jī)采樣的一個(gè)常數(shù)圖片

圖片

隨機(jī)量化作為自監(jiān)督學(xué)習(xí)任務(wù)中 masking 通道維度數(shù)據(jù)的能力取決于以下三個(gè)方面的設(shè)計(jì):1) 隨機(jī)劃分?jǐn)?shù)值區(qū)間;2) 隨機(jī)采樣輸出值以及 3)劃分的數(shù)值區(qū)間個(gè)數(shù)。

具體而言,隨機(jī)的過程帶來了更加豐富的樣本,同一個(gè)數(shù)據(jù)每次執(zhí)行隨機(jī)量化操作都可以生成不同的數(shù)據(jù)樣本。同時(shí),隨機(jī)的過程也帶來對原始數(shù)據(jù)更大的增強(qiáng)力度,例如隨機(jī)劃分出大的數(shù)據(jù)區(qū)間,或者當(dāng)映射點(diǎn)偏離區(qū)間中值點(diǎn)時(shí),都可以導(dǎo)致落在該區(qū)間的原始輸入和輸出之間的更大差異。

除此之外,也可以非常容易地通過適當(dāng)減少劃分區(qū)間的個(gè)數(shù),提高增強(qiáng)力度。這樣,當(dāng)應(yīng)用于 Siamese 表征學(xué)習(xí)的時(shí)候,兩個(gè)網(wǎng)絡(luò)分支就可以見到有足夠信息差異的輸入數(shù)據(jù),從而構(gòu)建足夠強(qiáng)的學(xué)習(xí)信號,幫助到特征學(xué)習(xí)。

下圖可視化了不同數(shù)據(jù)模態(tài)在使用了該數(shù)據(jù)增強(qiáng)方式之后的效果:

實(shí)驗(yàn)結(jié)果

模態(tài) 1:圖像

本文在 ImageNet-1K 數(shù)據(jù)集上評估了 randomized quantization 應(yīng)用于 MoCo-v3 和 BYOL 的效果,評測指標(biāo)為 linear evaluation。當(dāng)作為唯一的數(shù)據(jù)增強(qiáng)方式單獨(dú)使用的時(shí)候,即將本文的 augmentation 應(yīng)用于原始圖像的 center crop,以及和常見的 random resized crop(RRC)配合使用的時(shí)候,該方法都取得了比已有通用自監(jiān)督學(xué)習(xí)方法更好的效果。

圖片

相比于已有的針對圖像數(shù)據(jù)開發(fā)的數(shù)據(jù)增強(qiáng)方式,例如 color jittering (CJ),本文的方法有著明顯的性能優(yōu)勢。同時(shí),該方法也可以取代 MoCo-v3/BYOL 中一系列復(fù)雜的數(shù)據(jù)增強(qiáng)方式(Full),包括顏色抖動(color  jittering)、隨機(jī)灰度化(gray scale)、隨機(jī)高斯模糊(Gaussian blur)、隨機(jī)曝光(solarization),并達(dá)到與復(fù)雜數(shù)據(jù)增強(qiáng)方式類似的效果。

圖片

模態(tài) 2:3D 點(diǎn)云

本文還在 ModelNet40 數(shù)據(jù)集的分類任務(wù)和 ShapeNet Part 數(shù)據(jù)集的分割任務(wù)上驗(yàn)證了 randomized quantization 相對于已有自監(jiān)督工作的優(yōu)越性。尤其在下游訓(xùn)練集數(shù)據(jù)量較少的情況下,本文的方法顯著超過已有點(diǎn)云自監(jiān)督算法。

圖片

模態(tài) 3:語音

在語音數(shù)據(jù)集上本文的方法也取得了比已有自監(jiān)督學(xué)習(xí)方法更優(yōu)的性能。本文在六個(gè)下游數(shù)據(jù)集上驗(yàn)證了該方法的優(yōu)越性,其中在最難的數(shù)據(jù)集 VoxCeleb1 上(包含最多且遠(yuǎn)超其他數(shù)據(jù)集的類別個(gè)數(shù)),本文方法取得了顯著的性能提升(5.6 個(gè)點(diǎn))。

圖片

模態(tài) 4:DABS

DABS 是一個(gè)模態(tài)通用自監(jiān)督學(xué)習(xí)的基準(zhǔn),涵蓋了多種模態(tài)數(shù)據(jù),包括自然圖像、文本、語音、傳感器數(shù)據(jù)、醫(yī)學(xué)圖像、圖文等。在 DABS 涵蓋的多種不同模態(tài)數(shù)據(jù)上,我們的方法也優(yōu)于已有的任意模態(tài)自監(jiān)督學(xué)習(xí)方式。

圖片

感興趣的讀者可以閱讀論文原文,了解詳細(xì)的研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2011-08-01 16:10:11

XCode Excel 數(shù)據(jù)庫

2020-03-13 10:46:35

數(shù)據(jù)分析商業(yè)智能BI

2019-10-22 11:11:16

大數(shù)據(jù)工具容器

2019-04-23 15:54:04

物聯(lián)網(wǎng)數(shù)據(jù)可視化IOT

2020-06-04 08:11:56

數(shù)據(jù)庫開發(fā)SQL Server數(shù)據(jù)庫

2021-08-30 09:00:00

人工智能計(jì)算機(jī)視覺機(jī)器學(xué)習(xí)

2023-12-14 17:21:29

2011-02-25 09:08:22

LinuxSuSE Linux

2021-11-04 10:42:43

汽車軟件技術(shù)

2022-09-02 17:47:46

Linux筆記應(yīng)用

2018-12-13 11:19:21

2011-03-11 15:53:07

CentOS安裝LAMP

2011-12-08 09:43:56

虛擬化vmwareVMware Fusi

2023-11-30 08:55:15

LinuxLibreOffic

2018-06-28 12:27:35

大數(shù)據(jù)企業(yè)數(shù)據(jù)

2020-10-05 21:57:17

GitHub 開源開發(fā)

2013-02-21 10:13:25

2017-08-14 16:50:29

云優(yōu)先云計(jì)算公共云

2011-05-13 09:56:23

Ubuntu 11.0

2021-11-03 10:14:31

PowerEdge
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 免费观看一级视频 | 一区二区免费 | www.性色 | 亚洲欧美视频一区二区 | 中文福利视频 | 中文字幕97 | 成人在线一区二区 | 亚洲播放一区 | 国产一区二区三区在线 | 国产中文 | 国产情侣久久 | 日韩午夜影院 | 草草视频在线播放 | 福利网站在线观看 | 日本成人免费观看 | 97精品超碰一区二区三区 | 日韩欧美一级片 | 91亚洲一区| 97久久精品午夜一区二区 | 欧美性猛片aaaaaaa做受 | 国产清纯白嫩初高生视频在线观看 | 国产精品久久久久久久久久三级 | 久久一区二区三区四区 | 欧美性网 | 久久精品亚洲一区 | 91超碰在线 | 在线欧美一区 | 找个黄色片 | 日日噜噜噜夜夜爽爽狠狠视频, | 亚洲精品一区二区三区中文字幕 | 亚洲电影第三页 | 亚洲国产一| 精品国产免费一区二区三区五区 | 亚洲综合色站 | 午夜影院在线视频 | 国产精品一区二区久久久久 | 产真a观专区 | 一区二区三区高清 | 国产精品综合一区二区 | 一区二区三区视频免费看 | 亚洲精品在线免费看 |