成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta SAM 2:令人印象深刻的對象分割模型

譯文 精選
人工智能
Meta公司已經發布了模型權重、代碼和用于訓練它的數據集,這將對研究和開發社區非常有用。以下是SAM 2的工作原理及其對許多工業應用程序(包括未來幾代LLM)可能產生的影響。

譯者 | 李睿

審校 | 重樓

Meta公司發布的對象分割模型SAM 2可以執行實時圖像和視頻分割,并且可以應用于許多領域,而無需對特定數據進行微調。

Meta公司日前發布了其新的Segment Anything Model 2 (SAM 2),由于目前人們主要關注的是大型語言模型(LLM),因此并沒有得到應有的關注。SAM 2可以進行實時圖像和視頻分割,并且可以應用于許多領域,而無需對特定數據進行微調。

圖1使用Meta的SAM 2模型進行對象分割

Meta公司已經發布了模型權重、代碼和用于訓練它的數據集,這將對研究和開發社區非常有用。以下是SAM 2的工作原理及其對許多工業應用程序(包括未來幾代LLM)可能產生的影響。

從SAM到SAM 2

對象分割是一項復雜的任務,需要識別圖像中屬于對象的所有像素。傳統上,創建對象分割模型是一項非常復雜的任務,需要專業技術知識、目標應用程序的大量注釋數據以及成本昂貴的機器學習訓練基礎設施。

Meta公司于2023年發布的SAM改變了這一現狀,它提提供了一種可以開箱即用的模型來處理許多用例。SAM可以接受“提示”,提示可以包括點、邊界框或文本,并檢測哪些像素屬于與提示對應的對象。這相當于LLM的對象分割,它可以在不進行再訓練的情況下完成許多任務。

SAM的工作原理是學習匹配輸入圖像的編碼,并為每個對象提示轉換為彩色像素。該模型在SA-1B上進行訓練,SA-1B是一個包含10億張注釋圖像的數據集。關于數據注釋過程的一個有趣的事實是,研究人員使用了一個迭代過程。

他們首先在一組帶注釋的示例上訓練了初始版本的SAM。然后,使用該模型來幫助注釋者加快下一組示例的注釋過程。他們利用新的數據對SAM進行微調,提高其性能,并以更快的速度重復這個循環。

圖2 SAM架構

SAM已經被用于各種用途,從Instagram等消費者應用程序到科學和醫學應用程序。SAM也成為圖像標記過程的重要組成部分,幫助機器學習團隊加快為其專業分割模型創建訓練示例的過程。

SAM 2通過添加一些組件來改進SAM,使其更適合檢測視頻中的同一對象。視頻中對象分割的挑戰在于對象可能會變形、遮擋或在不同幀中從不同角度顯示。SAM 2添加了內存組件,使模型能夠確保跨幀的一致性。

記憶機制由記憶編碼器、記憶庫和記憶注意力模塊組成。當應用于靜止圖像時,內存組件是空的,模型的行為類似于SAM。當模型用于視頻時,內存組件存儲有關對象和用戶先前提示的信息。用戶可以在視頻的不同部分添加或刪除提示,以改進模型的輸出。在每一幀中,記憶信息都會根據前一幀的信息來調整模型的預測。

圖3 Meta SAM 2架構

SAM 2還附帶了SA-V,這是一個全新的數據集,具有更大、更豐富的訓練示例集。SA-V在大約51,000個視頻中包含60多萬個注釋圖像。這些視頻展示了從全球47個國家收集的真實場景。注釋包括整個對象、對象部分以及具有挑戰性的場景,例如對象部分被遮擋的實例。

與其前身一樣,SA-V在模型本身的幫助下進行了注釋。注釋者使用SAM 2的早期版本來注釋示例,然后人工糾正注釋并重新訓練模型。通過重復這個過程,他們改進了模型,提高了自動注釋的速度和質量。

Meta公司表示,“使用我們的工具和循環中的SAM 2的注釋大約比每幀使用SAM快8.4倍,也比將SAM與現成的跟蹤器結合起來快得多。”

SAM – 2的實際應用

根據Meta公司研究團隊發布的報告,在17個零樣本視頻數據集上,SAM 2在交互式視頻分割方面明顯優于以前的方法,并且需要的人機交互減少了大約三倍。SAM 2還提供每秒約44幀的近實時推理。

研究人員已經根據Apache 2.0許可證提供了SAM 2的代碼和權重,這意味著用戶可以免費將其用于商業目的。他們還發布了SA-V數據集。此舉是Meta公司最近推動將其人工智能研究、模型和工具開源的一部分,以應對OpenAI、Anthropic和谷歌等公司的封閉發布。

很多開發人員和研究人員將這種模型重新用于專門的用例。該模型已經非常高效,有39兆字節到224兆字節四種大小,足以在筆記本電腦和智能手機等許多邊緣設備上運行。但是,通用模型將在非常專業的應用程序或內存和計算受限的設備上遇到障礙。SAM 2和SA-V將如何幫助企業為特定工廠生產線上的對象檢測等專門應用創建微小對象分割模型令人感興趣。它對自動駕駛行業也非常有用,因為自動駕駛行業需要大量的注釋數據,而注釋速度的任何百分比的提高都是明顯的勝利。

同樣有趣的是,如何將SAM 2等模型與語言模型相結合以用于更復雜的應用程序。目前,大多數視覺語言模型(VLM)都是用于處理原始像素數據和文本。而了解可以用基于對象分割模型輸出或原始像素和粒度對象分割組合的VLM來實現什么,這將是一件有趣的事情。這可能對機器人技術尤其有用,因為視覺語言模型(VLM)和更新的視覺-語言-行動(VLA)模型正在這一領域取得進展。

至于Meta公司,可以期待SAM 2、Llama 3和下一代人工智能創新將在該公司一些最雄心勃勃的項目中找到自己的方式,包括增強現實眼鏡。

原文標題:Meta SAM 2 is the most impressive object segmentation model,作者:Ben Dickson

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-02-26 16:55:51

Sora人工智能

2021-09-14 14:39:46

物聯網建筑工人IoT

2022-06-07 14:55:23

蘋果M2 芯片MacBook

2019-12-17 14:43:01

大數據業務系統企業

2023-12-07 07:16:57

Meta訓練

2013-09-24 11:16:37

2024-07-15 09:13:48

2012-05-09 13:45:04

jQuery

2023-10-04 00:18:00

云原生Go語言

2024-01-03 15:09:21

云原生Go語言

2015-09-21 09:42:57

程序員教誨

2016-12-14 10:00:44

數據結構編譯器

2024-07-30 10:51:51

2024-12-18 16:47:31

計算機視覺圖像分割

2023-04-06 13:44:41

摳圖AI

2018-07-04 13:36:53

程序員項目數據庫

2023-04-10 15:52:57

模型樣本

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2023-04-25 11:36:17

CV模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人精品一区二区户外勾搭野战 | 国产精品96久久久久久 | 亚洲高清在线视频 | 毛片一级片 | 免费视频二区 | 国产xxxx在线 | 亚洲国产精品一区二区三区 | 免费在线成人 | 精品1区| 久久美国 | 精品国产乱码久久久久久蜜柚 | 国产精品久久久久无码av | 亚洲性视频在线 | 欧美日韩中文在线 | 精品国产91亚洲一区二区三区www | 天色综合网 | 亚洲成人毛片 | 午夜小电影| 欧美日韩一区二区三区四区 | 久久骚| 精品不卡| 日本免费一区二区三区四区 | 91偷拍精品一区二区三区 | 亚洲小视频在线观看 | www.天天操.com| 一区二区三区精品 | 亚洲欧美一区二区三区国产精品 | 国产精品欧美一区喷水 | 免费 视频 1级| 欧美日韩网站 | 久久国内精品 | www.成人久久 | 久久国产精品免费一区二区三区 | 日韩欧美不卡 | 国产99视频精品免费视频7 | 久草新在线 | 日韩中文一区二区三区 | 欧美最猛黑人xxxⅹ 粉嫩一区二区三区四区公司1 | 一区二区三区视频播放 | 亚洲精品一区久久久久久 | 国产一区二区三区在线免费 |