成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據時代的數據集蒸餾,大型數據集上的首次成功

大數據 人工智能
11 月 30 日,全球第一所人工智能大學——穆罕默德·本·扎耶德人工智能大學(MBZUAI),在 arXiv 預印平臺發布了題為《大數據時代的數據集蒸餾》(Dataset Distillation in Large Data Era)的文章。

11 月 30 日,全球第一所人工智能大學——穆罕默德·本·扎耶德人工智能大學(MBZUAI),在 arXiv 預印平臺發布了題為《大數據時代的數據集蒸餾》(Dataset Distillation in Large Data Era)的文章。

數據蒸餾應用及當前挑戰

數據集蒸餾(Dataset distillation)引起了計算機視覺和自然語言處理各個領域的廣泛關注。

數據集蒸餾的目的是從大型數據集中生成較小但具有代表性的子集,從而可以有效地訓練模型,同時評估原始測試數據分布以實現良好的性能。

隨著數據和模型規模的不斷增長,這種數據集蒸餾概念在大數據時代變得更加重要,因為數據集通常非常龐大,帶來存儲、計算和處理方面的挑戰。

一般來說,數據集蒸餾可以提供公平的競爭環境,使計算和存儲資源有限的研究人員能夠參與最先進的基礎模型訓練和應用程序開發,例如在當前的大數據和大模型政權中負擔得起的 ChatGPT 和 Stable Diffusion。此外,通過使用蒸餾數據集,有可能減輕一些數據隱私問題,因為原始的、個人可識別的數據點可能會被排除在蒸餾版本之外。

最近,在各個研究和應用領域采用大型模型和大數據已成為顯著趨勢。然而,許多先前的數據集蒸餾方法主要針對 CIFAR、Tiny-ImageNet 和下采樣 ImageNet-1K 等數據集,發現將其框架擴展到更大的數據集(例如完整的 ImageNet-1K)具有挑戰性。這表明這些方法尚未完全按照當代的進步和主流方法論發展。

提取各種大規模數據集,優于所有先前方法

許多先前的工作旨在與原始數據集的各個方面保持一致,例如匹配訓練權重軌跡、梯度、特征/BatchNorm 分布等。

在該研究中,研究人員展示了如何提取各種大規模數據集,以實現優于所有先前方法的最佳精度。

在此,MBZUAI 研究人員將注意力擴展到 ImageNet-1K 數據集之外,以 224×224 的傳統分辨率進入完整 ImageNet-21K 的未知領域。這標志著在處理如此龐大的數據集以進行數據集蒸餾任務方面的開創性努力。其方法利用簡單而有效的課程學習框架。精心解決每個方面,并制定強大的策略來有效地訓練完整的 ImageNet-21K,確保捕獲全面的知識。

具體來說,根據先前的研究,該方法最初訓練一個模型,將原始數據集中的知識封裝在其密集參數中。然而,研究人員引入了一個精煉的訓練方案,超越了 Ridnik 等人在 ImageNet-21K 上的結果。

在數據恢復/合成階段,研究人員采用一種策略學習方案,根據區域的難度順序更新部分圖像裁剪:從簡單過渡到困難,反之亦然。通過在不同的訓練迭代中調整 RandomReiszedCrop 數據增強的下限和上限來調節這一進程。

在數據合成過程中引入了一種簡單而有效的課程數據增強(Curriculum Data Augmentation,CDA),它在大規模 ImageNet-1K 和 21K 上獲得了在 IPC(每類圖像)50 下的準確率 63.2% 和在 IPC 20 下的 36.1% 的準確率。

值得注意的是,研究人員觀察到這種簡單的學習方法極大地提高了合成數據的質量。在論文中,研究人員深入研究了與課程學習框架相關的數據合成的三種學習范式。首先是標準課程學習,其次是其替代方法,逆向課程學習。最后,還考慮了基本的和以前使用的不斷學習的方法。

最后,研究表明,通過將所有增強功能集成在一起,所提出的模型在 ImageNet-1K/21K 上的 Top-1 準確率比當前最先進的模型高出 4% 以上,并且首次縮小了差距 與其全數據訓練對應物相比,絕對值不到 15%。

此外,該研究代表了標準 224×224 分辨率下大規模 ImageNet-21K 數據集蒸餾的首次成功。

其代碼和 20 個 IPC、2K 恢復預算的精煉 ImageNet-21K 數據集可在 GitHub中找到。

責任編輯:華軒 來源: AI 超數據
相關推薦

2013-06-09 10:22:46

大數據時代阿里巴巴數據閉環

2021-10-29 22:45:47

大數據算法技術

2021-09-30 16:28:34

大數據數據管理企業

2013-06-13 09:42:11

大數據

2023-08-28 10:42:22

數據庫Oracle

2017-06-09 05:55:56

存儲機器學習人工智能

2015-12-14 17:52:06

ENI經濟和信息化網

2017-02-23 09:30:29

大數據隱私數字化

2020-06-24 07:53:03

機器學習技術人工智能

2017-01-03 10:23:18

大數據隱私保護

2013-09-13 10:19:04

大數據

2013-06-21 10:16:44

2013-08-29 11:24:31

大數據

2015-09-15 09:53:57

大數據時代創業

2013-06-06 10:32:48

大數據

2018-02-24 22:26:51

大數據云計算數據中心

2023-04-24 21:17:54

大數據數據挖掘

2016-08-22 12:50:11

2013-09-17 18:24:46

SAP

2013-12-02 10:02:30

大數據時代
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩视频一区二区 | 国产精品久久久久久一区二区三区 | 97精品视频在线观看 | 青娱乐国产 | 国产日韩精品在线 | 日韩欧美精品在线播放 | 91视频导航 | 午夜精品在线 | 国产综合视频 | 国产一区成人 | 国产不卡视频在线 | 日本人做爰大片免费观看一老师 | 日韩乱码av| 激情a | 亚洲第1页 | 久久机热 | 中文字幕一区二区三区乱码在线 | 夜夜爽99久久国产综合精品女不卡 | 中文字幕在线网 | 精品国产一区二区三区免费 | 久久精彩视频 | 一区二区中文字幕 | 日韩在线电影 | 一区二区三区久久久 | 99久热在线精品视频观看 | 国产成人99久久亚洲综合精品 | www.99re| 久久精品中文 | 亚洲性在线 | 久久久久欧美 | 日韩在线一区二区三区 | 成人国产精品久久久 | av在线视| 欧美精品一区二区三区在线四季 | 嫩草视频在线免费观看 | 四虎影视1304t | 日韩欧美精品 | 亚洲一区二区三区视频在线 | 欧美一区二区三区在线播放 | 99久久精品免费看国产四区 | 风间由美一区二区三区在线观看 |