成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不到1ms在iPhone12上完成推理,蘋果提出移動端高效主干網絡MobileOne

移動開發 新聞
來自蘋果的研究團隊分析了現有高效神經網絡的架構和優化瓶頸,提出了一種新型移動端主干網絡。

用于移動設備的高效神經網絡主干通常針對 FLOP 或參數計數等指標進行優化。但當部署在移動設備上,這些指標與網絡的延遲可能并沒有很好的相關性。

基于此,來自蘋果的研究者通過在移動設備上部署多個移動友好網絡對不同指標進行廣泛分析,探究了現有高效神經網絡的架構和優化瓶頸,提供了緩解這些瓶頸的方法。該研究設計了一個高效的主干架構 MobileOne,它的變體在 iPhone12 上的推理時間少于 1 ms,在 ImageNet 上的 top-1 準確率為 75.9%。

圖片

論文地址:https://arxiv.org/abs/2206.04040

MobileOne 架構不僅實現了 SOTA 的性能,還在移動設備上提速了許多倍。其中,最好的模型變體在 ImageNet 上獲得了與 MobileFormer 相當的性能,同時速度提高了 38 倍。MobileOne 在 ImageNet 上的 top-1 準確率比 EfficientNet 在相似的延遲下高 2.3%。

圖片

此外,該研究還表明 MobileOne 可以推廣到多個任務 —— 圖像分類、目標檢測和語義分割,與部署在移動設備上的現有高效架構相比,準確度顯著提高,延遲顯著縮短。

方法概覽

研究者首先分析了常用指標(FLOP 和參數計數)與移動設備延遲的相關性,并分析了架構中不同設計選擇對手機延遲的影響。

指標相關性

比較兩個或多個模型大小最常用的成本指標是參數計數和 FLOPs。但是,它們可能與實際移動應用程序中的延遲沒有很好的相關性,該研究對此進行了深入的分析,對高效神經網絡進行了基準測試。

該研究并使用近期模型的 Pytorch 實現將它們轉換為 ONNX 格式。該研究使用 Core ML Tools 將每個模型轉換成 coreml 包,然后開發了一個 iOS 應用程序來測量 iPhone12 上的模型延遲。

如下圖 2 所示,該研究繪制了延遲與 FLOPs 和延遲與參數計數的關系圖。研究者觀察發現許多具有較高參數計數的模型延遲較低。在類似的 FLOPs 和參數計數下,MobileNets 等卷積模型對于比相應的 Transformer 模型延遲更低。

圖片

研究者還估計了下表 1 (a) 中的 Spearman 排名相關性,并發現延遲與 FLOPs 適度相關,而與移動設備上高效架構的參數計數弱相關,在臺式機 CPU 上相關性會更低。

圖片

激活函數的關鍵瓶頸

為了分析激活函數對延遲的影響,該研究構建了一個 30 層的卷積神經網絡,并在 iPhone12 上使用不同的激活函數對其進行基準測試,這些激活函數通常被用于高效的 CNN 主干網絡。下表 3 中的所有模型除了激活函數之外,架構都是相同的,但它們的延遲卻截然不同。

圖片

這種差異主要是由最近提出的激活函數(例如 SE-ReLU、Dynamic Shift-Max 和 DynamicReLUs)造成的。  MobileOne 中僅使用 ReLU 激活函數。架構塊影響運行時性能的兩個關鍵因素是內存訪問成本和并行度。

在多分支架構中,內存訪問成本顯著增加,因為必須存儲來自每個分支的激活函數來計算圖中的下一個張量。如果網絡的分支數較少,則可以避免此類內存瓶頸。強制同步的架構塊(如 Squeeze-Excite 塊中使用的全局池化操作)也會因同步成本而影響整體運行時間。為了演示內存訪問成本和同步成本等隱藏成本,該研究在 30 層卷積神經網絡中大量使用殘差連接(skip connection)和 Squeeze-Excite 塊,表 1b 展示了它們對延遲的影響。

基于此,該研究采用了在推理時沒有分支的架構,從而降低了內存訪問成本,并在 MobileOne 的最大變體中使用 Squeeze-Excite 塊以提高準確性。最終,MobileOne 架構如下圖所示。

圖片

為了提高性能,模型在以下幾個方面進行了擴展:寬度、深度和分辨率。該研究沒有隨著 FLOP 和內存消耗的增加而擴大輸入分辨率,這對移動設備上的運行時性能是有害的。

圖片

由于新模型在推理時沒有多分支架構,因此它不會產生數據移動成本。與多分支架構(如 MobileNet-V2、EfficientNets 等)相比,蘋果的新模型能夠積極地擴展模型參數,而不會產生很高的延遲成本。

增加參數數量能夠讓該模型很好地泛化到其他計算機視覺任務上,如目標檢測和語義分割。表 4 將新模型與最近的訓練時間過參數化工作進行了比較,結果表明 MobileOne-S1 變體的性能優于 RepVGG-B0,約比后者高 3 倍。

圖片

實驗及結果

在移動設備上獲得準確的延遲測量可能很困難。在 iPhone 12 上,沒有命令行訪問或功能來保留所有計算結構以僅用于模型執行。同時也無法將往返延遲分解為網絡初始化、數據移動和網絡執行等類別。為了測量延遲,該研究使用 swift 開發了一個 iOS 應用程序對這些模型進行基準測試。該應用程序使用 Core ML 運行模型。

在基準測試期間,應用程序會多次運行模型(默認為 1000 次)并累積統計信息。為了實現最低延遲和最高一致性,手機上的所有其他應用程序都將關閉。

如下表 8 所示,該研究報告了完整的模型往返延遲。其中大部分時間可能不是來自該模型本身的執行進程,但在實際應用程序中,這些延遲是不可避免的。因此,該研究將它們包含在報告的延遲中。為了過濾掉來自其他進程的中斷,該研究報告了所有模型的最小延遲。

圖片

此外,該研究還報告了幾種模型在 MS COCO 數據集上的目標檢測任務性能和在 Pascal VOC 、ADE 20k 數據集上語義分割任務性能,MobileOne 的性能普遍優于其他模型,具體結果如下表 9 所示。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究細節。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-07-08 15:40:11

網絡清華模型

2020-05-25 15:47:26

iPhone 12價格蘋果

2014-01-03 09:26:19

100G主干網

2020-08-26 12:03:58

iPhone 12蘋果手機

2020-10-13 15:04:09

iPhone 12蘋果5G

2020-04-22 15:00:03

iPhone蘋果劉海

2024-12-05 10:18:48

2020-10-16 19:13:34

iPhone 12蘋果價格

2020-10-12 09:35:25

iPhone 12售價

2020-02-23 16:00:29

iPhone 12蘋果iPhone

2009-12-31 10:09:59

2020-10-10 09:16:09

5G

2021-09-14 23:10:45

5G4G蘋果

2018-04-26 08:52:09

Windows操作系統功能

2021-11-22 16:34:16

蘋果維修功能

2020-10-15 19:16:48

iPhone 125G手機蘋果

2020-10-19 18:17:48

iPhone 12蘋果真香

2021-12-31 13:56:42

Transformer數據人工智能

2012-04-12 10:59:59

IPv6
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产1区2区3区 一区二区手机在线 | 欧美视频免费在线观看 | 久久伊人影院 | 成人a在线观看 | 欧美日韩精品免费观看 | 欧美激情精品久久久久 | 免费国产黄网站在线观看视频 | 国产999精品久久久久久 | 国产精品二区三区在线观看 | 成人国产精品视频 | 国产精品精品视频一区二区三区 | 国产亚洲精品精品国产亚洲综合 | 一区二区三区四区免费在线观看 | 亚洲精品在线免费 | 福利精品在线观看 | 国产精品区二区三区日本 | 国产永久免费 | 亚洲一区二区在线免费观看 | 免费a在线| 亚洲一级毛片 | 久久一日本道色综合久久 | 91在线导航 | 好姑娘高清在线观看电影 | 日韩a在线 | 亚洲欧美在线视频 | 成人欧美一区二区三区黑人孕妇 | 一级毛片中国 | 激情视频一区 | 国产一级毛片精品完整视频版 | 天天干亚洲| 亚洲香蕉在线视频 | 一区二区成人 | 日韩在线观看一区 | 国产精品一区三区 | 色永久| 羞羞的视频免费在线观看 | 国产一区| 本道综合精品 | 国产乱码精品1区2区3区 | 精品在线一区二区 | 亚洲成在线观看 |