成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Prompt一鍵摳圖!Meta發布史上首個圖像分割基礎模型,開創CV新范式

人工智能 新聞
今天,Meta發布史上首個圖像分割基礎模型SAM,將NLP領域的prompt范式引進CV,讓模型可以通過prompt一鍵摳圖。網友直呼:CV不存在了!

就在剛剛,Meta AI發布了Segment Anything Model(SAM)——第一個圖像分割基礎模型。

SAM能從照片或視頻中對任意對象實現一鍵分割,并且能夠零樣本遷移到其他任務。

圖片

整體而言,SAM遵循了基礎模型的思路:

1. 一種非常簡單但可擴展的架構,可以處理多模態提示:文本、關鍵點、邊界框。

2. 直觀的標注流程,與模型設計緊密相連。

3. 一個數據飛輪,允許模型自舉到大量未標記的圖像。

而且,毫不夸張地說,SAM已經學會了「物體」的一般概念,甚至對于未知物體、不熟悉的場景(例如水下和顯微鏡下)以及模糊的案例也是如此。

此外,SAM還能夠泛化到新任務和新領域,從業者并不需要自己微調模型了。

論文地址:https://ai.facebook.com/research/publications/segment-anything/

最強大的是,Meta實現了一個完全不同的CV范式,你可以在一個統一框架prompt encoder內,指定一個點、一個邊界框、一句話,直接一鍵分割出物體。

對此,騰訊AI算法專家金天表示,「NLP領域的prompt范式,已經開始延展到CV領域了。而這一次,可能徹底改變CV傳統的預測思路。這一下你可以真的可以用一個模型,來分割任意物體,并且是動態的!」

英偉達AI科學家Jim Fan對此更是贊嘆道:我們已經來到了計算機視覺領域的「GPT-3時刻」!

所以,CV真的不存在了?

SAM:一鍵「切出」任何圖像中的所有對象

Segment Anything是致力于圖像分割的第一個基礎模型。

分割(Segmentation)是指識別哪些圖像像素屬于一個對象,一直是計算機視覺的核心任務。

但是,如果想為特定任務創建準確的分割模型,通常需要專家進行高度專業化的工作,這個過程需要訓練AI的基礎設施,和大量仔細標注的域內數據,因此門檻極高。

為了解決這個問題,Meta提出了一個圖像分割的基礎模型——SAM。這個接受了多樣化數據訓練的可提示模型,不僅能適應各種任務,而且操作起來也類似于在NLP模型中使用提示的方式。

SAM模型掌握了「什么是對象」這個概念,可以為任何圖像或視頻中的任何對象生成掩碼,即使是它在訓練中沒有見過的對象。

SAM具有如此廣泛的通用性,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用于新的圖像領域,無論是水下照片,還是細胞顯微鏡。也即是說,SAM已經具有了零樣本遷移的能力。

Meta在博客中興奮地表示:可以預計,在未來,在任何需要在圖像中查找和分割對象的應用中,都有SAM的用武之地。

SAM可以成為更大的AI系統的一部分,對世界進行更通用的多模態理解,比如,理解網頁的視覺和文本內容。

在AR/VR領域,SAM可以根據用戶的視線選擇對象,然后把對象「提升」為 3D。

對于內容創作者,SAM可以提取圖像區域進行拼貼,或者視頻編輯。

SAM還可以在視頻中定位、跟蹤動物或物體,有助于自然科學和天文學研究。

圖片

通用的分割方法

在以前,解決分割問題有兩種方法。

一種是交互式分割,可以分割任何類別的對象,但需要一個人通過迭代微調掩碼。

第二種是自動分割,可以分割提前定義的特定對象,但訓練過程需要大量的手動標注對象(比如要分割出貓,就需要成千上萬個例子)。

總之,這兩種方式都無法提供通用、全自動的分割方法。

而SAM可以看作這兩種方法的概括,它可以輕松地執行交互式分割和自動分割。

在模型的可提示界面上,只要為模型設計正確的提示(點擊、框、文本等),就可以完成廣泛的分割任務。

另外,SAM在包含超過10億個掩碼的多樣化、高質量數據集上進行訓練,使得模型能夠泛化到新的對象和圖像,超出其在訓練期間觀察到的內容。因此,從業者不再需要收集自己的細分數據,為用例微調模型了。

這種能夠泛化到新任務和新領域的靈活性,在圖像分割領域尚屬首次。

(1) SAM 允許用戶通過單擊一下,或交互式單擊許多點,來分割對象,還可以使用邊界框提示模型。

(2) 在面對被分割對象的歧義時,SAM可以輸出多個有效掩碼,這是解決現實世界中分割問題的必備能力。

(3) SAM 可以自動發現、屏蔽圖像中的所有對象。(4) 在預計算圖像嵌入后,SAM可以實時為任何提示生成分割掩碼,允許用戶與模型進行實時交互。

工作原理

研究人員訓練的SAM可以針對任何提示返回有效的分割掩碼。提示可以是前景/背景點、粗略的框或掩碼、自由形式的文本,或者總體上任何指示圖像中需要分割的信息。

有效掩碼的要求僅僅意味著即使在提示模糊且可能指代多個對象的情況下(例如,襯衫上的一個點可能表示襯衫或者穿襯衫的人) ,輸出應該是其中一個對象的合理掩碼。

圖片

研究人員觀察到,預訓練任務和交互式數據收集對模型設計施加了特定的約束。

特別是,該模型需要在網絡瀏覽器中CPU上實時運行,以便讓標準人員能夠高效實時與SAM互動進行標注。

雖然運行時間的約束,意味著質量與運行時間之間需要權衡,但研究人員發現,在實踐中,簡單的設計可以取得良好的效果。

SAM的圖像編碼器為圖像產生一次性嵌入,而輕量級解碼器將任何提示實時轉換為矢量嵌入。然后將這兩個信息源在一個預測分割掩碼的輕量級解碼器中結合起來。

在計算出圖像嵌入之后,SAM可以在短短50毫秒內生成一段圖像,并在網絡瀏覽器中給出任何提示。

圖片

最新SAM模型在256張A100上訓練了68小時(近5天)完成。

圖片

項目演示

多種輸入提示

在圖像中指定要分割的內容的提示,可以實現各種分割任務,而無需額外的訓練。

圖片

用互動點和方框作為提示

圖片

自動分割圖像中的所有元素

圖片

為模棱兩可的提示生成多個有效的掩碼

可提示的設計

SAM可以接受來自其他系統的輸入提示。

例如,根據AR/VR頭顯傳來的用戶視覺焦點信息,來選擇對應的物體。Meta通過發展可以理解現實世界的AI,恰恰為它未來元宇宙之路鋪平道路。

圖片

或者,利用來自物體檢測器的邊界框提示,實現文本到物體的分割。

可擴展的輸出

輸出掩碼可以作為其他AI系統的輸入。

例如,物體的mask可以在視頻中被跟蹤,通過成像編輯應用程序,變成3D,或用于拼貼等創造性任務。

圖片

零樣本的泛化

SAM學會了關于物體是什么的一般概念——這種理解使其能夠對不熟悉的物體和圖像進行零樣本概括,而不需要額外訓練。

圖片

圖片

圖片

各種評測

選擇Hover&Click,點Add Mask后就出現綠點,點Remove Area后出現紅點,吃蘋果的花花立刻就被圈出來了。

圖片

而在Box功能中,簡單框選一下,就立馬完成識別。

圖片

點Everything后,所有系統識別出的對象立刻全部被提取出來。


選Cut-Outs后,秒得一個三角團子。

圖片

SA-1B數據集:1100萬張圖像,11億個掩碼

除了發布的新模型,Meta還發布了迄今為止最大的分割數據集SA-1B。

這個數據集由1100萬張多樣化、高分辨率、保護隱私的圖像,以及11億個高質量分割掩碼組成。

數據集的整體特性如下:

· 圖像總數: 1100萬

· 掩碼總數: 11億

· 每張圖像的平均掩碼: 100

· 平均圖像分辨率: 1500 × 2250 pixels

注意:圖像或掩碼標注沒有類標簽

Meta特別強調,這些數據是通過我們的數據引擎收集的,所有掩碼均由SAM完全自動生成。

有了SAM模型,收集新的分割掩碼的速度比以往任何時候都快,交互式標注一個掩碼只需要大約14秒。

每個掩碼標注過程只比標注邊界框慢2倍,使用最快的標注界面,標注邊界框大約需要7秒。

與以前的大規模分割數據收集工作相比,SAM模型COCO完全手動的基于多邊形的掩碼標注快6.5倍,比以前最大的數據標注工作(也是模型輔助)快2倍。

圖片

然而,依賴于交互式標注掩碼并不足以創建10億多個掩碼數據集。因此,Meta構建了一個用于創建SA-1B數據集的數據引擎。

這個數據引擎有三個「齒輪」:

1. 模型輔助標注

2. 全自動標注與輔助標注的混合,有助于增加收集到的掩碼的多樣性

3. 全自動掩碼創建,使數據集能夠擴展

我們的最終數據集包括超過11億個分割掩碼,這些掩碼收集在大約1100萬張授權和保護隱私的圖像上。

SA-1B比任何現有的分割數據集多出400倍的掩碼。并且通過人類評估研究證實,掩碼具有高質量和多樣性,在某些情況下,甚至在質量上可與之前規模更小、完全手動標注數據集的掩碼相媲美。

圖片

SA-1B的圖片是通過來自多個國家/地區的照片提供商獲取的,這些國家/地區跨越不同的地理區域和收入水平。

雖然某些地理區域仍然代表性不足,但SA-1B比以前的分割數據集在所有地區都有更多的圖像和更好的整體代表性。

最后,Meta稱希望這些數據可以成為新數據集的基礎,這些數據集包含額外的標注,例如與每個掩模相關聯的文本描述。

RBG大神帶隊

Ross Girshick

圖片

Ross Girshick(常被稱為RBG大神)是Facebook人工智能研究院(FAIR)的一名研究科學家,他致力于計算機視覺和機器學習的研究。

2012年,Ross Girshick在Pedro Felzenszwalb的指導下獲得了芝加哥大學的計算機科學博士學位。

在加入FAIR之前,Ross是微軟研究院的研究員,也是加州大學伯克利分校的博士后,在那里他的導師是Jitendra Malik和Trevor Darrell。

他獲得了2017年的PAMI青年研究員獎,2017年和2021年的PAMI Mark Everingham獎,以表彰他對開源軟件的貢獻。

眾所周知,Ross和何愷明大神一起開發了R-CNN方法的目標檢測算法。2017年,Ross和何愷明大神的Mask R-CNN論文獲得了ICCV 2017最佳論文。

網友:CV真不存在了

Meta打造的這款CV領域的分割基礎模型,讓許多網友高呼「這下,CV是真不存在了。」

圖片

Meta科學家Justin Johnson表示:「對我來說,Segment Anything的數據引擎和ChatGPT的RLHF代表了大規模人工智能的新時代。與其從嘈雜的網絡數據中學習一切,不如巧妙地應用人類標注與大數據相結合,以釋放新的能力。監督學習強勢回歸!」

圖片

唯一遺憾的是,SAM模型發布主要是由Ross Girshick帶隊,何愷明卻缺席了。

圖片

知友「matrix明仔」表示,這篇文章進一步證明多模態才是CV的未來,純CV是沒有明天的。


責任編輯:張燕妮 來源: 新智元
相關推薦

2023-07-17 09:21:12

Meta模型

2020-02-13 11:47:05

GitHub代碼開發者

2023-04-23 15:42:18

圖像視頻

2025-02-17 12:30:00

2011-05-20 17:23:41

Chrome 13

2024-04-08 14:07:51

Animagine開源

2019-10-30 15:05:44

AI 數據人工智能

2023-06-28 18:36:59

MokaAI

2023-05-19 13:15:15

視頻分割

2024-07-04 10:13:18

2024-07-10 12:33:06

2022-05-25 10:28:35

模型AI

2023-07-27 13:43:10

2023-11-13 06:53:00

微軟Windows

2012-11-26 17:09:42

Windows 8

2024-07-30 10:51:51

2022-09-30 15:35:43

AI視頻

2024-04-08 13:59:03

大模型Replicate

2018-04-18 16:14:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产午夜精品一区二区三区四区 | av色站 | www.天天操| 亚洲 欧美 综合 | 久久综合一区 | 欧美韩一区二区 | 日韩电影一区 | 成在线人视频免费视频 | 亚洲图片视频一区 | 国产在线中文字幕 | 亚洲精彩免费视频 | 黄色网址免费在线观看 | 一区福利视频 | 精品欧美久久 | 精品一区视频 | 亚洲精品视频在线看 | 成人欧美一区二区 | 亚洲一区二区三区免费在线观看 | 色综合久久久 | 亚洲一一在线 | 国产中文字幕亚洲 | 日日干日日射 | 福利国产 | 天天摸天天干 | 欧美日韩久久 | 久久久精品一区二区三区 | 99热热热热 | 中文字幕亚洲一区 | 久久久.com | 日韩一区二区三区在线视频 | 精品久久电影 | 一区二区三区日韩 | 国产精品一区二区三区久久 | 亚洲精品视频在线观看视频 | 一区二区三区欧美大片 | 午夜综合 | av一级| 国产精品久久久久久久久久妇女 | 欧美在线视频二区 | 欧美国产精品一区二区 | 爱草在线|