首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示精華

發布于 2024-10-14 15:13

瀏覽

0收藏

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

文章鏈接：https://arxiv.org/pdf/2410.04960

亮點直擊

提供了一項系統的高效 SAM 變體全面回顧，旨在加速分割任務。介紹了一個結構良好的分類法，將這些方法根據其采用的加速策略進行分類。據我們所知，這是第一項專門關注該領域的調查。
對這些變體的效率和準確性進行了全面的評估和比較，旨在幫助研究人員選擇最能滿足其性能和應用需求的模型。
提出了幾個未來研究的潛在方向，為讀者提供啟發，以推動該領域的持續發展。

Segment Anything Model (SAM) 是一款基礎模型，專用于圖像分割任務，以其在多樣應用中的強大泛化能力而聞名。然而，它的出色性能伴隨著顯著的計算和資源需求，這使得在資源有限的環境（如移動設備）中進行部署變得具有挑戰性。為了解決這個問題，已經提出了多種 SAM 變體，以提高效率而不犧牲準確性。

本綜述首次全面回顧了這些高效的 SAM 變體。我們首先探討推動該研究的動機，然后介紹 SAM 和模型加速中使用的核心技術。接下來，深入分析各種加速策略，并按方法進行分類。最后，提供了對這些方法的統一和全面的評估，評估它們在代表性基準上的效率和準確性，并對它們的整體性能進行明確比較。

1 引言

基礎模型的出現已經徹底改變了人工智能（AI）領域。基礎模型是大型神經網絡，在海量數據上進行預訓練，具有強大的表示能力和出色的泛化能力，能夠在各種任務中表現出色。在自然語言處理（NLP）領域，最近流行的研究趨勢是大型語言模型（LLMs），如OpenAI的GPT系列、Google的PaLM系列和Meta的LLaMA系列等，這些模型取得了顯著的發展。同時，視覺轉換器（ViT）的成功首次將轉換器架構引入計算機視覺（CV）領域，為視覺基礎模型（VFM）開辟了新紀元。像CLIP、LLaVA和Video-ChatGPT等視覺-語言基礎模型旨在對齊視覺和語言模態，在眾多下游視覺任務中表現出色。

最近，Meta提出了一種新型的基礎模型，用于通用圖像分割，即 Segment Anything Model (SAM) 。SAM 完全在他們提出的 SA-1B 數據集上進行訓練，該數據集包含超過十億個mask和一千一百萬張圖像，旨在通過任何提示（例如點、框、mask和文本）實現有效的分割。SAM 能夠很好地泛化到廣泛的下游任務（如邊緣檢測、目標提議和實例分割），只需提供適當的提示。SAM 的出現引起了研究界的廣泛關注，并催生了大量相關工作，探索 SAM 在各種場景中的泛化能力，包括不同的圖像分割任務、視頻分析任務和 3D 視覺任務。隨著 SAM 的巨大成功，升級版的 Segment Anything Model 2 (SAM 2)

盡管 SAM 在廣泛應用中取得了成功，原始的 Segment Anything Model (SAM)，特別是 SAM-H，由于運行速度慢和計算成本高面臨顯著的局限性。在資源受限或實時環境（如邊緣設備和移動應用）中部署 SAM 時，這些挑戰尤為明顯。隨著對在實際資源受限場景中部署機器學習模型的需求不斷增加，SAM 當前的設計在廣泛使用中顯得效率低下。這導致了對更輕量級、高效變體的迫切需求，這些變體可以在滿足模型強大分割能力的同時應對這些限制。優化 SAM 以提高效率的挑戰進一步加劇，因為在實時應用、移動平臺和嵌入式系統中對計算資源的需求越來越高。隨著研究界努力克服這些障礙，全面了解在提高 SAM 效率方面的最新進展變得至關重要。因此，開展一項詳細的調查，以研究提高 SAM 效率和擴展其在多樣環境中的適用性的努力，是及時且必要的。

隨著與 SAM 相關的研究不斷增加，已有若干調查從不同角度提供了概述。然而，這些現有的調查主要集中在 SAM 的下游應用上，并存在幾項局限性：

沒有一項調查關注到提高 SAM 效率的新興領域，而這一領域正在獲得重要關注，對實際應用的部署至關重要。
除了一項外，這些調查缺乏結構化的分類法，以便更清晰地組織和參考。
大多數先前的調查主要集中在收集和描述基于 SAM 的方法，但缺乏對這些方法的系統性評估或比較。

為了解決這些不足，本文開展了本次調查，旨在全面回顧高效 Segment Anything 模型的發展，并公平地評估和比較它們。

本調查的其余部分組織如下。在第2節中，我們首先介紹原始 SAM 的背景，然后回顧可以應用于提高 SAM 效率的高效視覺表示骨干和模型壓縮技術。在第3節中，我們根據目標和技術對現有方法進行分類，詳細回顧每個類別。我們還討論了進一步加速 SAM 的幾個潛在研究方向。在第4節中，我們對這些模型在效率、準確性和相應的權衡方面進行公平評估。最后，在第5節中，我們簡要總結了本次調查。

2 初步概述

2.1 Segment Anything Model

Segment Anything Model (SAM) 是圖像分割領域中的一個強大基礎模型，旨在通過基本的可提示分割任務，利用提示工程來統一各種分割任務。該項目的一個顯著貢獻是 SA-1B 數據集，該數據集包含來自 1100 萬張經過許可和隱私保護的圖像生成的超過 10 億個masks。在如此豐富和高質量的數據上進行訓練，SAM 展現出強大的魯棒性和泛化能力。SAM 的巨大潛力迅速引起了研究人員對探索其在廣泛現實應用中的能力以及改進其架構以實現更高效或更準確分割的興趣。

最近，Segment Anything Model 2 (SAM 2) 被提出作為繼任者，專注于高效的可提示視覺分割 (PVS)，適用于圖像和視頻。為了使 SAM 2 能夠在視頻中分割任何內容，研究人員在 SAM 的原始架構中引入了流式記憶機制。SAM 2 采用兩階段訓練：

在 SA-1B 數據集上進行可提示分割任務的預訓練；
在混合數據上進行可提示分割任務的訓練，處理圖像和視頻。

與 SAM 類似，研究人員開發了一個數據引擎，以創建一個用于視頻分割的大規模數據集，命名為 SA-V 數據集。該數據集最終收集了 50,900 個視頻中的 642.6K 個mask（視頻中的對象分割）。在本次調查中，將 SAM 2 視為高效的 SAM 變體，并將其納入評估和比較中。

2.1.1 模型

SAM 由三個主要組成部分構成：圖像編碼器、提示解碼器和mask解碼器，如下圖 1(a) 所示。圖像編碼器是一個經過微小修改的 MAE預訓練視覺Transformer (ViT)。它將預處理后的圖像作為輸入，并為每張圖像輸出一個圖像嵌入。提示解碼器用于嵌入提示：點、框、mask和文本。這兩個嵌入然后輸入到輕量級mask解碼器，該解碼器基于兩個修改過的Transformer解碼器塊和一些預測頭，生成有效的mask。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

基于 SAM 的架構，SAM 2 額外引入了流式記憶機制。具體來說，這個機制包括一個記憶編碼器、一個記憶庫和一個記憶注意模塊。SAM 2 的結構如上圖 1(b) 所示。通過記憶機制，SAM 2 能夠逐幀處理視頻。記憶編碼器生成當前幀的預測記憶并將其發送到記憶庫。記憶庫存儲最近的預測、提示幀的特征圖以及目標對象的高級語義信息（即對象指針）。記憶注意機制使來自圖像編碼器的圖像嵌入與來自記憶庫的信息充分交互，從而得到精細化的嵌入。除了記憶機制，SAM 2 還采用 MAE 預訓練的 Hiera作為圖像編碼器，這比 ViT-H 更高效，預期可以實現更快的速度。

2.1.2 任務

可提示分割任務被提出作為 SAM 的基本任務，其目標是根據任何給定的提示（例如一個點、一個框、一個mask或文本）返回有效的mask。這個任務不僅是 SAM 訓練過程中的目標，也是使 SAM 能夠解決各種下游任務的基礎。另一個重要任務是全mask生成，它會對圖片中的所有對象進行分割。通過使用點網格對 SAM 進行提示，并根據這些稠密的提示預測mask來實現。全mask生成也是數據引擎最后階段中的關鍵步驟，旨在增強 SA-1B 中mask的多樣性。如下圖 2 所示，可提示分割任務稱為 Segment Anything (SegAny)，而全mask生成任務則稱為 Segment Everything (SegEvery)。這兩個任務總結了 SAM 的分割能力，并為提升 SAM 效率指明了兩個研究方向。在本次調查中，我們遵循這兩個定義，探討基于 SAM 的高效變體在 SegAny 和 SegEvery 任務中的表現。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

2.1.3 應用

由于 SAM 及其繼任者 SAM 2 在大量零樣本下游任務中展示了強大的泛化能力，研究界正深入探索它們在更多場景中的應用。

SAM 的一個主要應用領域是醫學圖像分割 。根據[157]的說法，該領域的工作可以分為兩類。一類旨在測試 SAM 在 CT 圖像、MRI 圖像、病理圖像等中的分割性能。另一類則專注于通過微調、自動提示或框架修改來提高 SAM 在這些任務中的適應性。此外，像[35, 57]這樣的研究試圖提高醫學 SAM 方法的效率。SAM 還被應用于不同現實場景中的對象檢測，包括土木基礎設施缺陷評估中的裂縫檢測和隕石坑檢測，農業中的作物病蟲害檢測，異常檢測和遙感。此外，Segment Anything 已被改編為 Edit Everything、Inpaint Anything和 Caption Anything來處理圖像編輯任務。

除了圖像分割任務，SAM 還廣泛應用于各種視頻任務。大量研究集中于兩個基本任務：視頻對象分割 (VOS)和視頻對象跟蹤 (VOT)。研究人員還探索了 SAM 在生成相關任務中的應用，例如視頻超分辨率和視頻數據集標注生成。除此之外，SAM 還作為視頻編輯任務中的一個中間工具被進一步利用。除了 2D 任務，SAM 還擴展到 3D 視覺領域。研究[100]將 SAM 應用于 3D 重建，而研究[28]則將其應用于 3D 點云分割。最近的工作[134]旨在實現在線設置下的任何 3D 物體的實時分割。對于最近提出的 SAM 2，已經有一些研究探索其在圖像和視頻任務中的應用。一個流行的趨勢是將 SAM 2 應用于醫學圖像和視頻任務。像[27, 99, 135]這樣的研究評估了 SAM 2 在 2D 和 3D 模態下醫學圖像中的表現，而一些其他研究[75, 140]則測試了其在外科視頻分割任務中的表現。研究人員還在尋找更好地將 SAM 2 適應醫學任務的策略。此外，SAM 2 還被應用于一些特定的圖像分割任務，如數字病理語義分割、網格部件分割和太陽能電池板分割。此外，一些研究[70, 113]利用 SAM 2 在具有挑戰性的規模化視頻對象分割 (LSVOS) 任務中取得了良好的結果。

2.1.4 局限性

盡管 SAM 在各種任務中表現出色，但在實際應用中仍面臨兩個關鍵挑戰：

它通常難以為精細結構預測完整的mask，從而導致邊界不精確；
它不是實時的，資源消耗仍然很高，特別是在使用像 ViT-H 這樣的重型圖像編碼器時。

為了解決這些問題，研究如[49, 54]旨在通過利用高分辨率圖像來改善mask質量，而其他研究[131, 147, 161, 164]則專注于創建更高效的架構，以減少 SAM 的時間和資源消耗。之前的調查[78, 100, 158]已探討了提高 SAM 質量結果的最新進展。在本次調查中，我們專注于提高 SAM 效率的努力。

2.2 高效骨干網絡

SAM 的低效主要源于其重量級的圖像編碼器。SAM 圖像編碼器的尺寸詳見表 1，并在后面小節中提供了 SAM 總參數的進一步估算，比如在 SAM-H 中，ViT-H 圖像編碼器包含大約 632M 個參數，而模型的總大小為 641M，這意味著圖像編碼器占模型參數的大部分。即使在最小的變體 SAM-B 中，圖像編碼器仍占總參數的 90% 以上。因此，快速有效地加速 SAM 的一種方法是用更高效的骨干網絡替換大型圖像編碼器。這些高效的骨干網絡可以包括純卷積神經網絡 (CNN)、高效視覺Transformer架構以及最近的Transformer替代模型[87]。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

2.2.1 高效視覺Transformer

提高視覺Transformer效率的努力通常可以分為兩種方法：

設計更高效的架構；
重構注意力機制。

從結構角度減少計算成本，MobileViT是一種開創性的混合架構，創造性地將卷積神經網絡（CNN）模塊（MobileNetV2 模塊）與Transformer模塊集成到一個模型中。隨后，像 [10, 62, 127] 這樣的后續工作基本上遵循這個思路，構建高效的混合結構視覺Transformer，這些Transformer已被廣泛用來替代 SAM 的重型圖像編碼器。在 [103, 161] 中，TinyViT 作為高效骨干網絡，而在 [162] 和 [159] 中，EfficientFormerV2 和 EfficientViT分別替代了 SAM 的原始圖像編碼器。另一個具有影響力的視覺Transformer設計，MetaFormer，將注意力機制抽象為一個更廣泛的概念，稱為 token mixer，可以使用各種 token mixer 實現與Transformer相媲美的性能。最簡單的變種 PoolFormer，通過使用池化操作作為 token mixer，而不引入額外的可學習參數，已被用作為 Lite-SAM開發輕量級圖像編碼器的基礎架構。

研究人員在優化注意力機制方面也取得了顯著進展。觀察到注意力機制中的 softmax 操作顯著增加了整體計算成本。在 EfficientViT 中，提出了一種新穎的 ReLU 線性注意力機制，以更高效地實現全局感受場。這種高效的骨干網絡在中被進一步采用以加速 SAM。注意力機制的改進還在硬件層面上進行。FlashAttention通過切片、內核融合和重計算等技術顯著降低了計算成本，并被應用于 SAM 加速工作，以減少內存需求并提高計算效率。

2.2.2 替代Transformer模型

雖然Transformer目前在語言和視覺領域占據主導地位，但一些新提出的模型在效率和性能方面顯示出了超越Transformer的潛力。

接受權重關鍵值（RWKV）模型結合了遞歸神經網絡（RNN）和Transformer的優勢，隨著序列長度的增加，實現了線性時間復雜度。RWKV 非常適合處理長序列處理的挑戰。

為了促進全局信息交互，RWKV 用更高效的 WKV 操作符和輸出門控機制替代了傳統的具有二次復雜度的注意力機制。這些機制的公式如下：

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

其中 r, k, v 分別表示接收的tokens、鍵和值的移位tokens，W表示權重。RWKV 也已擴展到視覺任務。視覺 RWKV (VRWKV) 模型在效率上表現出與視覺Transformer (ViT) 相當的性能。為了將 RWKV 從一維序列適應到二維圖像，引入了 Q-shift tokens，以在四個方向上融合鄰域信息。在 [145] 中，一種基于 RWKV 的 SAM 變體通過采用混合 MobileNetV2 塊和 VRWKV 塊的高效主干，取得了卓越的效率表現。

2.3 模型壓縮

模型壓縮涵蓋一系列旨在減少模型大小和計算復雜度的技術，使其在計算資源有限的實際應用中部署大型模型成為必要。模型壓縮和加速的四種主要方法是知識蒸餾、量化、剪枝和低秩分解。

2.3.1 知識蒸餾

知識蒸餾 (KD)最初被引入作為在資源受限環境中部署大型復雜神經網絡的解決方案。其核心概念是將來自較大、訓練良好的模型（教師模型）的知識和表征能力轉移到較小、更高效的模型（學生模型）。

在將 KD 應用于加速 SAM 時，目標是從原始的較大 SAM 中提取知識，并將其傳授給更高效的 SAM 類模型。鑒于 SAM 的編碼器-解碼器架構，KD 通常可以分為兩種方法：蒸餾整個 SAM 模型或僅蒸餾圖像編碼器。大多數工作，如 [84, 103, 117, 147, 159]，專注于僅蒸餾高效主干，同時保留原始 SAM 的提示編碼器和掩膜解碼器。然而，其他方法，如 [162, 164]，旨在通過監督編碼器和解碼器的輸出來蒸餾整個模型。

2.3.2 量化

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

2.3.3 剪枝

模型剪枝通過消除冗余的權重或連接來減少模型的大小和復雜性，同時盡量保持精度。剪枝方法通常分為兩種類型：結構化剪枝和非結構化剪枝。結構化剪枝根據特定標準以組的方式刪除參數，系統性地針對通道、層或塊等子結構。相比之下，非結構化剪枝則專注于單個權重，通常導致稀疏和碎片化的網絡。然而，由于剩余網絡結構的不規則性，非結構化剪枝可能在一般硬件上并未帶來有效的加速。在 [18] 中，應用結構化剪枝來減輕 SAM 的重量，通過移除大量冗余權重顯著減少了模型的大小，同時保留了大部分 SAM 的能力。

2.3.4 低秩分解

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

3 SAM 的高效變體

本節回顧了自 SAM 受到關注以來，為開發輕量級高效的 SAM 類模型所做的努力。這些工作旨在降低模型的高計算成本并實現高效性能，同時保持 SAM 強大的分割能力和泛化能力。正如前面所述，SAM 解決了兩個主要任務，包括 Segment Anything (SegAny) 和 Segment Everything (SegEvery)。因此，我們分別討論旨在改進每個任務的研究：首先，關注加速 SegAny 任務，然后涵蓋加速 SegEvery 任務的努力。值得注意的是，一些方法適用于這兩個任務，將單獨討論這些貢獻。此外，根據所采用的技術將所有模型分類，并在下圖 3 中呈現方法論的分類。最后，概述了該領域未來研究的四個潛在方向。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

3.1 加速 SegAny 任務

正如前面所分析的，SegAny 任務的主要瓶頸在于 SAM 的龐大架構。一種直接的解決方案是用更高效的主干替換編碼器。或者，采用保持與 SAM 相同分割能力的不同架構也是一種方法。遵循這些策略的工作要么涉及完全從頭開始訓練輕量級模型，要么使用合適的監督進行知識蒸餾訓練模型。此外，一些研究探索量化、剪枝或局部優化等方法，以直接壓縮 SAM，而不替換編碼器或構建新架構。

3.1.1 從頭開始訓練

本小節聚焦于完全從頭開始訓練 SAM 變體的工作。根據它們的架構，這些模型可以分為兩種類型：與 SAM 架構不同的架構和類似 SAM 的架構。我們將按照這種分類詳細探討每種類型。

FastSAM 是第一個不依賴于 SAM 原始編碼器-解碼器架構的 SAM 變體之一。為了實現更快的分割，它將 SegAny 任務分為兩個子任務：全實例分割和基于提示的選擇。由于實例分割已被許多基于 CNN 的方法有效解決，FastSAM 提供了比基于Transformer的 SAM 更高的效率。對于實例分割，FastSAM 采用 YOLOv8-Seg 模型，并使用 YOLACT 方法來提升性能。FastSAM 可以使用點、框或文本作為提示，可靠地預測感興趣的物體。除了加速 SegAny 任務外，FastSAM 還在 SegEvery 任務中表現出色，因為這可以與全實例分割高效地實現。然而，作為 SAM 的早期高效變體，FastSAM 仍然存在一些局限性，例如對較小物體生成低質量mask和生成邊界不夠平滑的mask。盡管存在這些缺點，FastSAM 通過在該領域引入基于 CNN 的架構標志著顯著的進展。FastSAM 的架構如下圖 4 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

基于 FastSAM 中 CNN 成功應用的基礎，Varadarajan 等人引入了 SqueezeSAM，進一步用 U-Net 結構替換了 SAM 的基于Transformer的架構。U-Net 由用于特征提取的編碼器和用于信息恢復的解碼器組成。SqueezeSAM 保留了一般的 U-Net 架構，但在 U-Net 的最低尺度處加入了兩個Transformer層，以在速度和準確性之間取得平衡。此外，SqueezeSAM 還具有幾個微觀級別的優化，例如將輸出通道限制在 256，使用 BatchNorm代替 LayerNorm以提高效率，并在編碼器和解碼器之間引入跳躍連接。

SqueezeSAM 的一個獨特挑戰在于處理提示。與 SAM 在解碼階段使用提示tokens不同，SqueezeSAM 采用了早期融合策略，將編碼的提示作為額外輸入通道，添加到輸入編碼器之前。該模型使用 SA-1B 數據集從頭開始訓練，數據增強技術用于解決低質量數據問題。SqueezeSAM 主要設計用于攝影應用的部署，其中需要高效的交互式分割。如圖 5 所示，其工作流程包括生成顯著物體的初始mask，然后通過用戶點擊進行精細分割。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

EfficientSAM并沒有引入全新的網絡，而是保留了 SAM 的原始架構，但替換了圖像編碼器。他們使用 ViT-tiny 或 ViT-small 作為輕量級編碼器，并利用基于 SAM 的 Masked Image (SAMI) 預訓練策略從頭開始重新訓練。SAMI 是從 Masked AutoEncoder (MAE) 框架適配而來，該框架最初用于預訓練 SAM 的原始圖像編碼器。SAMI 遵循編碼器-解碼器管道：編碼器從未遮罩的圖塊中生成潛在特征表示，而解碼器則重構遮罩圖塊的缺失嵌入。這個過程由重構損失監督，比較 SAM 的 ViT-H 編碼器生成的嵌入與 SAMI 管道生成的嵌入。預訓練完成后，輕量級編碼器從 SAMI 管道中提取并與 SAM 的其余組件集成，形成 EfficientSAM。最后一步是對整個模型在 SA-1B 數據集上進行微調，以進一步對齊和細化。SAMI 是一種通用的預訓練方法，可以應用于訓練任何用于 SAM 變體的主干。SAMI 和 EfficientSAM 的整體結構如下圖 6 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

Xu 等人提出了 RAP-SAM，該模型旨在實現實時的通用分割，包括全景分割 (PS)、視頻實例分割 (VIS) 和交互式分割（相當于 SegAny 任務）。RAP-SAM 保留了 SAM 的基本編碼器-解碼器架構，但結合了更高效的組件以增強性能。對于編碼器，RAP-SAM 結合了特征金字塔網絡 (FPN) 和可變形卷積來從圖像和視頻中提取特征，同時使用提示編碼器嵌入視覺提示。在解碼器中，RAP-SAM 采用三階段管道，利用新穎的基于池化的動態卷積來細化masktokens。每個階段生成的tokens以及來自編碼器的特征圖作為輸入。首先，這些輸入通過動態卷積處理，然后利用多頭自注意力 (MHSA) 和前饋網絡 (FFN) 進行細化。在解碼器之后，額外引入兩個提示適配器，以增強視覺提示和分割tokens之間的交互。最終mask是通過計算更新后的tokens和更新后的提示之間的內積生成的。RAP-SAM 的架構如下圖 7 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

最近，Ravi 等人引入了 Segment Anything Model 2 (SAM 2)，這是對原始 SAM 的擴展。SAM 2 的目標是在圖像和視頻中提供高質量、實時的可提示分割。在圖像分割任務中，SAM 2 報告顯示其準確性更高，并且效率比原始 SAM 提高了 6 倍。這一顯著進展主要歸功于其高效的圖像編碼器 Hiera，這是一種分層 ViT，通過去除冗余組件并利用 MAE 框架進行訓練，從 MViTv2 中簡化而來。Hiera 是一種精簡的、純Transformer基礎的架構，在圖像和視頻任務中運行速度更快，準確性更高。

3.1.2 基于知識蒸餾的方法

從前面圖 3 所示的分類法中，我們觀察到許多方法利用知識蒸餾，因為這種方法通常比完全模型訓練需要更少的時間和資源。在本節中，我們回顧采用高效主干作為圖像編碼器，同時利用知識蒸餾進行訓練的 SAM 變體。我們根據編碼器類型將這些模型分為三類：具有 (i) 輕量級 ViT 編碼器、(ii) 純 CNN 編碼器和 (iii) 修改過的注意力編碼器的模型。我們將依次介紹每個類別。

(i) 輕量級 ViT 編碼器Zhang 等人首次嘗試用更高效的 TinyViT 替換 SAM 的重型 ViT 編碼器，形成名為 MobileSAM 的集成模型。如 [55] 所強調，訓練 SAM 從頭開始需要多天和 128 個 GPU。MobileSAM 將這一復雜性歸因于同時優化編碼器和解碼器的挑戰。為了解決這個問題，他們提出了一種僅編碼器蒸餾策略，如下圖 8 所示，旨在將 ViT-H 的視覺表示能力轉移到 TinyViT。所使用的損失函數是兩個編碼器的輸出圖像嵌入之間的簡單均方誤差 (MSE)。進一步微調提示編碼器或mask解碼器是可選的，并且可以提高準確性。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

與 MobileSAM 類似，后來的 ESAM利用 EfficientFormerV2作為其主干，旨在在 CPU 環境中改善性能，特別是在資源有限的醫療設備上。鑒于專家模型在醫療應用中通常優于 SAM，ESAM 采用了一種新穎的知識蒸餾 (KD) 策略，稱為整體知識蒸餾 (HKD)，以將知識從專家模型轉移到 ESAM。HKD 包括兩個組成部分：特征圖蒸餾和輸出mask蒸餾。對于特征圖蒸餾，結合了三種不同的聚焦方法來指導學習過程。對于輸出mask蒸餾，ESAM 使用教師mask和學生mask之間的均方誤差 (MSE) 損失，輔以教師mask和真實mask之間的二元交叉熵 (BCE) 損失。為了進一步對齊專家模型和 ESAM 之間的特征圖，提出了一種教師引導模塊 (TGM)，如下圖 9 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

Shu 等人對 MobileSAM 進行了分析，發現僅編碼器蒸餾可能導致顯著的性能下降。為了解決這個問題，他們提出了更有效的全階段知識蒸餾策略，稱為 Hard Mining Full-Stage Knowledge Distillation，如下圖 10 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

TinySAM 是一個新的 SAM 變體，其結構與 MobileSAM 相同，通過這種改進的 KD 策略進行訓練。具體而言，該策略不僅監督圖像嵌入，還監督輸出tokens和輸出mask，均使用 L1 損失。為了進一步增強蒸餾過程，他們引入了困難mask加權策略，該策略對更難預測的mask分配更大的權重，從而提高學習效率。因子 H 的計算如下：

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

(ii) 基于 CNN 的編碼器

來自 NVIDIA 的研究人員基于 MobileSAM 引入了一種新的 SAM 變體，稱為 NanoSAM。它旨在在 NVIDIA Jetson Orin 平臺上實現實時性能，使用 NVIDIA TensorRT。NanoSAM 將基于 ViT 的編碼器替換為純卷積網絡，具體為 ResNet18，同時保留了 MobileSAM 的其他組件。NanoSAM 從 MobileSAM 中進行蒸餾，兩個模型都使用 TensorRT 進行重新訓練以優化性能。MobileSAM 的圖像編碼器使用 FP32 精度進行優化，而 NanoSAM 的圖像編碼器則使用 FP16 精度以實現更快的執行。在 Jetson Orin Nano 和 Jetson AGX Orin 上的推理延遲結果表明，NanoSAM 比 MobileSAM 快 5 倍，且準確性損失最小。

Wang 等人開發了一種高效的 SAM 變體 RepViT-SAM，使用他們新提出的基于 CNN 的主干 RepViT作為圖像編碼器。RepViT 背后的核心思想是將高效視覺Transformer (ViTs) 的有效設計原則集成到輕量級 CNN 中。這些設計原則應用于三個層次：塊級、宏觀和微觀。在塊級，RepViT 分離了tokens混合器和通道混合器，減少了擴展比，并增加了塊的寬度。在宏觀設計中，采用早期卷積作為輸入干，深化下采樣層，采用更簡單的分類器，并調整各個階段的塊比例。在微觀層面，僅使用 3x3 卷積，并且僅在奇數塊中應用擠壓與激勵層。RepViT-SAM 使用知識蒸餾進行訓練，遵循 [147] 中的相同流程，與 MobileSAM 相比，推理速度提高了 10 倍。

與 RepViT-SAM 的開發同時，Zhou 等人觀察到，MobileSAM在邊緣設備（如手機）上部署時仍難以實現實時性能。為了解決這個問題，他們引入了 EdgeSAM，該模型將基于 Transformer 的編碼器替換為更輕量高效的純 CNN 基礎的 RepViT，旨在提高在資源有限設備上的性能。與 [162] 中的方法類似，Zhou 等人認為僅使用編碼器蒸餾是不夠的，因為它與任務無關，不能完全捕捉模型的任務特定需求。為了克服這一問題，他們提出了“循環中的提示蒸餾”方法，為輸出mask增加額外的監督。“循環中的提示”是指一種動態采樣策略，迭代地從教師和學生預測mask的非重疊區域中采樣新提示。經過若干次迭代，累計損失被反向傳播以更新編碼器和解碼器。為了進一步提高輸出質量，EdgeSAM 提供了一個可選模塊，從特定數據集中嵌入粒度先驗。EdgeSAM 的蒸餾整體框架如下圖 11 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

(iii) 修改過的注意力編碼器

Zhang 等人引入了 EfficientViT-SAM，利用 EfficientViT作為圖像編碼器。EfficientViT 的主要優點是使用了 ReLU 線性注意力機制，該機制促進了全局信息交互，同時提高了硬件效率。通過消除不利于硬件的 softmax 操作并用 ReLU 替代，注意力計算重新公式化如下：

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

Shen 等人引入了 FastSAM3D，這是一個專門為 3D 體積醫學圖像設計的高效分割模型。該工作的關鍵貢獻是開發了 3D 稀疏閃存注意力機制。這種新穎的注意力方法結合了 3D 膨脹注意力擴展感受野）的優點和 FlashAttention以加速計算。FastSAM3D 使用修改過的 ViT-Tiny 作為圖像編碼器，從 ViT-Base 編碼器蒸餾而來，確保在不妥協性能的情況下實現效率。作者實現了一種層級漸進蒸餾策略，以迭代地對齊兩個編碼器之間的特征圖。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

Yuan 等人的最新研究 RWKV-SAM，在加速 SAM 方面代表了一個重要進展，引入了流行的線性注意力模型作為高效主干。在他們的研究中，他們比較了基于 RWKV 和 Mamba 的架構，選擇基于 RWKV 的方法構建 SAM 的輕量版本。該主干是混合設計，前兩層由來自 [97] 的移動卷積塊組成，最后一層使用視覺 RWKV 塊構建。有關 RWKV 的更多細節見第 2.2.2 節。此外，SAM 類架構中還納入了一個細化模塊，通過融合每個階段生成的不同層次的特征來增強mask質量。RWKV-SAM 的整體架構如下圖 12 所示。該模型使用“蒸餾-微調”策略進行訓練，首先將 SAM-H 中的知識蒸餾到主干，然后對整個模型進行微調。RWKV-SAM 顯示出顯著的效率提升，同時保持與 SAM 相當的分割性能。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

3.1.3 基于量化的方法

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

3.1.4 基于剪枝的方法

Chen 等人首先開發了一種有效的剪枝策略，以減少 SAM 的規模和復雜度，得到的模型稱為 SlimSAM。如第 2.3.3 節所述，剪枝算法旨在以結構化或個別的方式刪除冗余參數。在應用于 SAM 的重型編碼器時，初始步驟涉及估計權重和激活值的重要性，以確定哪些應被剪枝。評估重要性的核心思想是評估給定參數有無的損失差異。SlimSAM 引入了擾動泰勒重要性方法，該方法使用一階泰勒展開來近似參數的重要性，并引入高斯噪聲N以防止梯度變為零。這個過程被公式化如下：

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

一旦參數的重要性被估計，便采用一種稱為交替剪枝的策略來執行結構化剪枝和后對齊。基于 ViT 的編碼器首先被分為兩個子結構：嵌入層和瓶頸層。該策略在修剪嵌入/瓶頸層以減小模型規模和對齊瓶頸/嵌入層以保持模型質量之間交替進行，確保效率與性能的平衡。該過程的工作流程如下圖 13 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

3.1.5 代碼重構

由 PyTorch 團隊開發的 Segment Anything Fast 模型（SAMfast）是 SAM 的重寫版本，利用了純原生 PyTorch 的優化。報告顯示，SAMfast 比原始實現快 8 倍，同時保持幾乎相同的準確性。這一改進是通過系統地識別瓶頸并應用針對性的優化實現的。最初，團隊發現了導致同步阻塞的長函數調用，從而重寫了相應的代碼。另一個顯著的瓶頸是耗時的矩陣乘法，通過使用 bfloat16 精度來減輕這一問題。進行這些調整后，團隊利用 ??torch.compile?? 融合更小的操作，并采用 PyTorch 的縮放點積注意力（SDPA）來加速 GPU 上的注意力計算。此外，通過集成使用 Triton 構建的新內核，進一步減少了 GPU 的內存使用。當 SAM 使用批量預測方法時，不同大小的輸入張量被統一為 NestedTensors，從而顯著提高了吞吐量。盡管進行了這些優化，矩陣乘法仍然是一個關鍵瓶頸。為了解決這個問題，團隊實現了 int8 量化，并使用半結構稀疏性來近似矩陣乘法。有關逐步優化過程的更多細節，建議查看官方博客以獲取更多信息。

3.2 加速 SegEvery 任務

如第 3.1 節所述，SegAny 任務的主要效率瓶頸在于重型圖像編碼器。任何具有更輕量架構的 SAM 變體在本質上都能比原始 SAM 更快地進行分割。然而，正如 Zhang 等人分析的那樣，SegEvery 任務的主要挑戰源于密集網格采樣策略。該策略首先基于點網格預測大量mask，然后選擇有效mask，這在計算上是昂貴的。因此，設計一種更高效的采樣策略以減少預測mask的數量已成為加速 SegEvery 任務的核心方法。另一種潛在解決方案是將 SegEvery 任務轉換為另一個成熟的任務，例如全實例分割，正如 FastSAM 所做的那樣。在這一部分中，我們將回顧專門提出優化采樣策略以加速 SegEvery 任務的相關工作。

基于 SAM 的結構，Zhang 等人提出了一個面向對象的提示采樣策略，以增強 SegEvery 任務的效率。這個項目名為 MobileSAMv2，獨立于他們之前的工作，后者專注于加速 SegAny 任務。在 MobileSAMv2 中，研究人員使用訓練在 SA-1B 小子集上的 YOLOv8 模型進行對象發現。該模型生成大量對應于潛在對象的邊界框。通過非極大值抑制（NMS）過濾高度重疊的框，剩余的框作為框提示使用。通過使用這些過濾后的框作為提示，MobileSAMv2 消除了過濾預測mask的需要——這是一個耗時更長的過程。最大提示數設置為 320，新策略被報告為比傳統的 32*32 網格采樣策略快 16 倍。此外，MobileSAMv2 可以與 MobileSAM 集成，以創建一個統一模型，在 SegAny 和 SegEvery 任務中實現高效率。

Shu 等人觀察到，使用密集點網格（例如，3232，6464）往往會生成大量冗余mask，這些mask在后處理過程中被過濾掉，這一操作會帶來顯著的時間成本。實際上，網格中只需少數點即可生成置信度高的mask。為了解決這一低效問題，他們提出了一種分層高效采樣策略，逐步選擇用于mask生成的最佳點。該策略涉及兩輪提示生成。在第一輪中，使用稀疏網格，只包括每邊默認點的四分之一（約 1/4）。基于這些點生成mask，經過過濾后，僅保留高置信度mask作為最終預測。在第二輪中，應用更密集的網格，遵循默認配置。然而，位于已被高置信度mask覆蓋區域的點被排除，從而顯著減少點的數量。兩輪的預測結果隨后被融合以生成最終輸出。這一分層策略的流程如下圖 14 所示。通過采用這種兩輪方法，采樣過程變得更加節省時間和細致，從而在 SegEvery 任務中顯著加速，同時性能下降最小。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

與前述所有工作不同，Fu et al.提出了一個專門為 SegEvery 任務設計的端到端訓練管道，旨在開發一個能夠更高效地進行全局分割的 SAM 變體。他們的模型名為 Lite-SAM，保留了原始 SAM 的整體架構，但用更輕量化的解決方案替換了重型圖像編碼器。Lite-SAM 的架構概述如下圖 15 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

Lite-SAM 采用了一種稱為 Lite-ViT 的 CNN-Transformer 混合結構，由 2、2、6 和 2 個 Lite-ViT 模塊構成。Lite-ViT 的關鍵創新在于多尺度池化模塊 (MSPM)，該模塊作為傳統注意力機制的替代方案。MSPM 從 PoolFormer 模塊適配而來，利用通道層歸一化并將池化操作擴展到多個尺度。正如前面所討論的，SAM 的另一個主要瓶頸在于耗時的網格采樣策略。為了解決這個問題，Lite-SAM 引入了一種自動提示提議網絡（AutoPPN）以提高采樣效率。AutoPPN 以編碼器生成的特征圖作為輸入，直接預測點和框提示。為了確保高質量的提示，Lite-SAM 使用了比 CNN 更強大的基于 MSPM 的網絡，并結合距離變換來估計點提示的置信度。雖然 Lite-SAM 主要設計用于加速 SegEvery 任務，但由于其輕量化的圖像編碼器，它在 SegAny 任務中也顯示出更高的效率。

3.3 未來研究方向

通過對高效 SAM 變體的全面回顧，我們概述了加速 SAM 的當前進展。然而，仍然存在進一步探索和創新的機會。以下是幾個潛在的未來研究方向，提供初步見解，希望能夠激勵讀者為該領域的持續發展做出貢獻。

3.3.1 探索先進的架構

盡管當前的 SAM 變體通過采用高效架構和模型壓縮技術展示了效率提升，但仍有很大的改進潛力。探索 Transformer 替代模型，如 Mamba、RetNet、KAN和 TTT，為設計更輕量化和高效的結構提供了令人興奮的機會。這些模型可能在計算效率方面具有優勢，同時不犧牲分割準確性。除了替代模型外，進一步提升圖像編碼器和mask解碼器中注意力機制的效率也是至關重要的。諸如線性注意力、低秩分解或結合卷積和基于注意力的設計的混合架構等方法應進一步研究。解決計算和內存使用中的瓶頸將增強 SAM 在不同硬件環境中的部署能力。

3.3.2 利用稀疏性和加速技術

在深度神經網絡中觀察到的固有稀疏性，即只有一部分參數對模型輸出產生顯著貢獻，提供了提高 SAM 效率的有希望的途徑。剪枝、量化和結構稀疏等技術可以進一步降低 SAM 的計算需求。盡管在 [18] 中的初步稀疏化努力已顯示出成功，但未來的研究可以集中在理解 SAM 架構中稀疏性的分布和動態特性上。這包括研究可以在不影響性能的情況下被剪枝或稀疏化的 SAM 最優層或組件。此外，稀疏注意力機制、推理過程中的動態剪枝以及低精度訓練等技術應被探索，以在大型部署中平衡準確性和效率。通過將這些與先進的知識蒸餾技術結合，可能實現更緊湊、高效的 SAM 變體。

3.3.3 硬件特定優化

對 SAM 進行針對特定硬件平臺的優化，包括 GPU、TPU、專業 AI 加速器（例如 NVIDIA 的 TensorRT 或 Google 的 Edge TPU）以及邊緣設備，可以顯著提升性能和效率。硬件感知模型優化技術，如操作符融合、量化感知訓練和自定義 CUDA 內核，可以在現代硬件平臺上最大化吞吐量并降低延遲。在邊緣設備的上下文中，由于面臨存儲、計算能力和能量供應的極端限制，這些優化對實時應用（如無人機或物聯網設備上的分割）至關重要。未來的研究可以探索分層云-邊緣架構，將計算密集型任務卸載到云端，同時在邊緣設備上運行輕量級模型。此外，利用專用 AI 硬件（如現場可編程門陣列 (FPGA)）或使用硬件感知的神經架構搜索 (NAS) 和混合精度量化等技術，可以進一步優化 SAM，以實現低延遲和資源受限環境中的有效運行，確保模型在不同硬件平臺上高效運作。

3.3.4 視頻和多模態數據的高效分割

視頻和多模態任務處理復雜、動態的環境，正迅速在眾多實際應用中獲得相關性。盡管一些初步努力，例如 SAM 2用于視頻分割和 MM-SAM用于多模態任務，已經擴展了 SAM 的適用性，但效率仍然是一個迫切問題。視頻數據包含時間冗余，而多模態數據通常表現出模態之間的相關性。通過時間聚合和跨模態特征共享等技術利用這些固有的冗余，可能顯著降低計算成本。未來的工作可以集中在利用時空注意力、為時間數據設計高效的內存機制和早期融合技術，以減少模態特定計算的數量，從而優化 SAM 的運行復雜性。開發能夠動態適應不同幀或模態冗余水平的框架，可以進一步推動實際應用中的計算效率。

4. 評估

在本節中，我們系統比較了前述 SAM 變體的效率和準確性。參考這些工作的實驗，我們選擇大多數工作所執行的任務，并在其常用數據集上進行評估，并使用相應的度量標準。我們的評估在單個 24GB RTX 3090 GPU 和 14 個 vCPU 的 Intel(R) Xeon(R) Gold 6330 處理器 @ 2.00GHz 上進行。以下子節提供更多細節：第 4.1 節介紹了用于評估的數據集和度量標準；第 4.2 和 4.3 節分別報告了效率和準確性的定量結果。

4.1 數據集和度量標準

研究者們選擇 COCO 2017和 LVIS v1作為評估數據集。COCO 是一個大規模數據集，旨在用于目標檢測、分割和標注，包含 330K 張圖像和 150 萬個目標實例，覆蓋 80 個目標類別。LVIS 針對大詞匯實例分割進行了定制，特征超過 200 萬個高質量的分割掩膜，涵蓋 1200 多個類別，在 164K 張圖像中。為了進行評估，我們使用兩個數據集的驗證集，COCO 包含 5000 張圖像中的 36,781 個實例，LVIS 包含 19,809 張圖像中的 244,707 個實例。為了評估效率，我們首先測試幾個軟指標，如參數數量 (#Params)、浮點運算量 (FLOPs)、乘加運算量 (MACs) 和內存使用情況。我們進一步計算有效錯誤率 (EER)，這是一種更全面的評估，如 [86] 中所述。EER 定義為：

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

4.2 效率比較

首先報告 SAM 及其變體的效率結果。以 SAM 官方示例中的圖像 groceries.jpg 作為輸入，利用一個邊界框作為提示，使用工具 calflops 評估模型的參數數量、FLOPs 和 MACs。我們還計算了 ERR 以進行全面比較。結果如表 2 所示。在高效變體中，我們觀察到 EdgeSAM 的參數數量、FLOPs、MACs 及其相應的 EER 是最低的，而 EfficientViT-SAM-XL1 的這些數值是最高的，其 EER 比 SAM-B 高出 3%。與最重的 SAM-H 相比，所有變體在模型大小和計算量上都表現出明顯的降低。

還測量了模型在 SegAny 和 SegEvery 模式下的推理時間，使用來自 COCO 驗證集的 100 張圖像作為評估數據。在 SegAny 任務中，每張圖像都提示 50 個固定的邊界框。

通過曲線圖（如下圖16所示）報告每10個邊界框的累計時間。基于此，計算處理一個圖像并使用一個邊界框提示所需的平均時間，并將其作為 SegAny 任務的推理時間報告。評估在 CPU 和 GPU 環境下進行，并同時記錄 GPU 內存使用情況。此外，還測試了每個變體在 COCO 驗證集上的吞吐量，使用真實的邊界框。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

結果總結在表3中。我們的研究發現，EfficientViT-SAM-L0 在 SegAny 任務中實現了最短的推理時間，與最重的模型 SAM-H 相比，在 GPU 上加速接近 30 倍，而在 CPU 上幾乎加速 50 倍。EdgeSAM 也表現出令人印象深刻的性能，其 CPU 延遲為 259 毫秒，而 NanoSAM 在 GPU 上的延遲為 20 毫秒，均接近最佳結果。在 COCO 數據集的吞吐量測試中，NanoSAM 以每秒處理 27.9 張圖像領先。其他兩個變體，EfficientSAM-Ti 和 EfficientViT-SAM-L0，也展示了強大的吞吐量，各自超過每秒 20 張圖像。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

對于 SegEvery 任務，報告使用不同點網格大小（1616、3232、6464）或專用采樣策略生成圖像所有mask所需的平均時間。結果在表4中呈現。使用默認的 3232 網格，SAMfast-H 展示了最高的效率，延遲為 848 毫秒——比 SAM-H 快兩倍以上。

EfficientViT-SAM-L0 在 1616 和 6464 網格上表現最佳，分別實現了 258 毫秒和 3938 毫秒的延遲。有趣的是，我們觀察到在使用較低網格密度時，EfficientSAM-S 比 SAM-H 更慢，16x16 網格的延遲為 1100 毫秒，32*32 網格的延遲為 2290 毫秒。采用替代采樣策略的模型在效率上顯示出顯著改善，特別是 FastSAM 記錄了 196 毫秒的延遲，而 MobileSAMv2 的延遲為 173 毫秒。

4.3. 精度比較

本小節報告了 SAM 及其變體在 SegAny 任務（使用點/框提示）和實例分割任務上的精度結果。我循了 [159] 中的評估框架，并通過引入其他評估模塊進行了統一的變體評估。

為了評估 SegAny 任務，采用兩種類型的點作為提示：

1）真實邊界框的中心點
2）從真實mask中均勻隨機采樣的點，遵循 [131] 中的設置。

在 COCO 和 LVIS 上對變體進行了評估，并在下表 5 中報告了平均交并比（mIoU）。當使用中心點提示時，SAM2-B+ 和 EfficientViT-SAM-XL1 在 COCO 上達到了 54.3% 的最高 mIoU，超過了 SAM-H 的 53.6% mIoU，而 SAMfast-H 也以 53.6% 的 mIoU 在 LVIS 上展示了變體中的最佳性能。在隨機點提示的設置下，EfficientViT-SAM-XL1 的表現優于 SAM-H，特別是在使用 3 個點提示時，分別增加了 2.7% 和 0.7%。從數據集的角度來看，我們觀察到 LVIS 的結果普遍低于 COCO，尤其是對于 FastSAM 和 EfficientSAM-Ti，其在 LVIS 上的準確率降至 30% 以下。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

此外，還評估了使用兩種類型框提示的 SegAny 任務的精度：

1）真實的邊界框
2）對應真實mask的最緊邊界框，靈感來自于 [131, 159] 中的實驗。

在 COCO 和 LVIS 上報告了 mIoU 的結果，如表 6 所示。我們觀察到 EfficientViT-SAM-XL1 在每種設置中都展示了最高的準確性，分別超過 SAM-H 1.5%、1.1%、1.9% 和 0.6%。SAMfast-H 和 EfficientViT-SAM-L0 在框提示的分割任務中也展現了接近 SAM-H 的性能。

對于實例分割任務，采用了 ViTDet、YOLOv8、GrounddingDINO、Detic 和 H-Deformable-DETR 與 Swin-L 作為物體檢測器，幫助生成潛在物體的邊界框，參考文獻 [117, 159, 164]。評估了所有物體的平均精度（AP），以及小型、中型和大型物體的 AP。結果報告在下面表 7、8 和 9 中。與之前的結果類似，我們發現 EfficientViT-SAM-XL1 在 COCO 數據集上總是以最高的 AP 表現（除 H-Deformable-DETR 外）。在將 ViTDet 作為檢測器并在 LVIS 數據集上測試的設置下，SAMfast-H 以 44.5% 的 AP 超過了所有其他變體。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

根據第 4.2 節和第 4.3 節的結果，進一步繪制了吞吐量-mIoU 散點圖，以觀察變體的效率-精度權衡。具體而言，選擇了在 COCO 數據集上使用真實邊界框作為提示進行評估的吞吐量和 mIoU。結果如下圖 17 所示。

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示-AI.x社區

5. 結論

在本次調查中，主要討論和評估了關注于高效分割任意物體和分割所有物體的顯著工作，這些方法旨在減少資源消耗和降低延遲。對于高效的 SegAny 任務，大多數工作采用替換圖像編碼器或整個架構為輕量級替代方案的方法，隨后進行從頭訓練或通過知識蒸餾的方式進行訓練。其他工作則旨在利用量化、剪枝或局部優化等技術壓縮原始模型。對于高效的 SegEvery 任務，采用有效且高效的采樣策略生成提示是至關重要的。

在詳細回顧這些方法后，還概述了四個可能的未來研究方向，這些方向可能推動該領域的新趨勢。此外，我們在一致的環境中評估了這些模型的效率、準確性及其相應的權衡，提供了公正而有價值的比較。我們的分析表明，一些變體在特定場景中已經超過了原始的 SAM，我們相信它們的成功將激勵該領域的進一步探索和創新。

本文轉自 AI生成未來，作者： AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/bBbCyUG-tBkIzn_eZi0qhQ??

標簽

模型

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

首篇！全面系統解讀高效SAM變體：各種加速策略和核心技術展示精華

1 引言