成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<samp id="ywgpl"></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像

發布于 2024-7-30 10:38

瀏覽

0收藏

2023年4月5日，Meta首次開源了視覺分割模型SAM，能夠根據交互和自動化兩種方式任意切割視頻、圖像中的所有元素，當時這個模型被譽為計算機視覺界的“ChatGPT時刻”。目前，SAM在Github超過45000顆星。

今天凌晨，Meta在SAM的基礎之上對架構、功能以及準確率等進行大量更新，正式開源了SAM-2，并支持Apache 2.0規則的商業化。這也是繼上周Llama 3.1之后，再次開源重磅模型。

同時Meta還分享了SAM-2的訓練數據集SA-V，包含了51,000真實世界視頻和超過600,000個時空遮罩，這比其他同類數據集大50倍左右，可幫助開發人員構建更好的視覺模型。

SAM-2開源地址：https://github.com/facebookresearch/segment-anything-2

在線demo：https://sam2.metademolab.com/

數據集地址：https://ai.meta.com/datasets/segment-anything-video/

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

SAM-2架構簡單介紹

SAM-2基礎架構是基于transformer模型并引入了流式記憶機制，主要由圖像編碼器、記憶編碼器、記憶注意力模塊、提示編碼器和掩模解碼器等模塊組成。

圖像編碼器作為SAM-2處理視頻幀的起點采用了流式處理方法，能夠處理任意長度的視頻，相比第一代可以使用更少的交互提升3倍效率。它使用的是一個預訓練的Hiera模型，能夠提供多尺度的特征表示，為后續的記憶注意力模塊和掩模解碼器提供豐富的上下文信息。

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

記憶編碼器和記憶注意力模塊是本次SAM-2的重要創新之一。記憶編碼器負責將模型先前的預測和用戶交互動作編碼為記憶，并將這些記憶存儲在記憶庫中，用于影響后續幀的分割結果。

記憶注意力模塊則利用這些記憶來增強當前幀的特征表示，使其能夠更好地捕捉目標對象在時間序列中的動態變化。

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

記憶編碼器通過將預測的分割掩模降采樣并與當前幀的特征融合，生成記憶特征。隨后通過一系列輕量級的卷積層進一步處理，以整合信息。記憶庫則保留了目標對象在視頻中的歷史信息，通過維護一個先進先出隊列來存儲最近N幀的記憶。

提示編碼器的設計遵循了SAM的原則，能夠接受點擊、框選或遮罩等不同類型的提示，以定義給定幀中對象的范圍。這些稀疏提示通過位置編碼和學習到的嵌入表示進行表示，而遮罩則通過卷積操作進行嵌入，并與幀嵌入相加。

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

掩模解碼器的設計在很大程度上遵循了第一代SAM的架構，使用了雙向transformer塊，這些塊更新提示和幀嵌入。為了處理可能存在多個兼容目標掩模的模糊提示，SAM-2預測每個幀上的多個掩模，這對于確保模型輸出有效掩模至關重要。

SA – V訓練數據集

現有的視頻分割數據集通常存在一些限制，例如，注釋對象主要集中在人、車輛和動物等特定類別，并且往往只覆蓋整個對象而忽略了部分和子部分。

此外，這些數據集的規模相對較小，無法滿足訓練強大的視頻分割模型的需求。為了解決這些難題，Meta開發了SA – V數據集并使用了三大階段。

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

在第一階段，使用了SAM模型來輔助人類標注。標注者的任務是在視頻的每幀中以每秒6幀的速度使用SAM和像素精確的手動編輯工具來標注目標對象的掩碼。

由于這是一種逐幀的方法，所有幀都需要從頭開始標注掩碼，因此流程非常緩慢，平均標注時間為每幀37.8秒。但這種方法能夠產生高質量的空間標注，在這個階段，共收集了16000個掩碼片段，涵蓋了1400個視頻。

第二階段，引入了SAM 2 Mask，它只接受掩碼作為提示。標注者首先使用SAM和其他工具在第一幀中生成空間掩碼，然后使用SAM 2 Mask將標注的掩碼在時間上傳播到其他幀，以獲得完整的時空掩碼片段。

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

通過這個階段的工作，收集了635,000個掩碼片段，標注時間下降到每幀7.4秒，相比第一階段有了顯著的提高，速度提升了約5.1倍。

第三階段，使用了完全功能的SAM-2，它能夠接受各種類型的提示，包括點和掩碼。與前兩個階段不同，SAM-2受益于對象在時間維度上的記憶來生成掩碼預測。

殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像-AI.x社區

這意味著標注者只需要偶爾對SAM 2提供的預測掩碼進行細化點擊，就能夠在中間幀中編輯預測的掩碼片段，而不需要像在第一階段那樣從頭開始標注。通過多次重新訓練和更新SAM-2，標注時間進一步下降到每幀4.5秒，相比第一階段速度提升了約8.4倍。

所以，SA – V在開發SAM-2過程中發揮了重要作用，也是目前最大視覺分割訓練數據集之一。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/eutXy6YCWsvtv-wGAcNaPA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

生物醫學圖像分割與目標檢測：UOLO

mb61e52f0ac174a ? 5142瀏覽 ? 0回復
文本直接生成2分鐘視頻，即將開源模型StreamingT2V

Aceryt ? 4528瀏覽 ? 0回復
已開源！大連理工盧湖川、賈旭團隊提出可插入圖像/視頻/3D生成的StableIdentity

angel ? 2686瀏覽 ? 0回復
CVPR 2024 | 分割一切模型SAM泛化能力差？域適應策略給解決了

輕薄滴假象 ? 3506瀏覽 ? 0回復
殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！

輕薄滴假象 ? 2743瀏覽 ? 0回復
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 3407瀏覽 ? 0回復
Meta公司開源大數據模型SAM實戰演練

51CTO內容精選 ? 3304瀏覽 ? 0回復
LLama2詳細解讀 | Meta開源之光LLama2是如何追上ChatGPT的？

arnoldzhw ? 3690瀏覽 ? 0回復
Meta再下一城：SAM 2

魯班模錘1 ? 2947瀏覽 ? 0回復
IPAdapter+再進化，可同時學習多個任務！Unity開源新思路：圖像條件結合指令提示

angel ? 2236瀏覽 ? 0回復
Meta SAM 2：令人印象深刻的對象分割模型

51CTO內容精選 ? 2985瀏覽 ? 0回復
可提示 3D 分割研究里程碑！SAM2Point：SAM2加持泛化任意3D場景、任意提示！

angel ? 2700瀏覽 ? 0回復
醫療圖像分割中的深度學習方法

51CTO內容精選 ? 2085瀏覽 ? 0回復
NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一

angel ? 4206瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2388瀏覽 ? 0回復
港大&字節發布領先商用級圖像視頻生成模型Goku有點東西

angel ? 2568瀏覽 ? 0回復
殺瘋了！DeepSeek開源第3彈：DeepGEMM炸場，算力焦慮終結者？

智駐未來 ? 2198瀏覽 ? 0回復
MedSAM2: 3D醫療圖像和視頻的全能分割模型、DeepResearcher: 通過真實環境強化學習實現深度研究

sbf_2000 ? 1421瀏覽 ? 0回復
所有AI工具共享持久私有記憶，OpenMemory MCP殺瘋了！

探索AGI ? 2216瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

剛剛，OpenAI發布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發布
字節跳動開源多模態AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： Meta開源用于數學等復雜推理AI Agent—HUSKY

下一篇：終于來了，OpenAI測試GPT-4o高級語音模式！

社區精華內容

目錄

主站蜘蛛池模板：日韩精品免费一区 | 视频一区国产精品 | 成人av一区 | 国产三级 | 国产不卡在线观看 | 最新黄色在线观看 | 亚洲在线视频 | 极品的亚洲 | 91久久精品日日躁夜夜躁国产 | 亚洲欧洲成人在线 | 日本亚洲欧美 | 中文字幕二区三区 | 超碰成人免费观看 | 国产日韩精品在线 | 午夜影晥 | 91视视频在线观看入口直接观看 | 欧美日韩精品一区二区天天拍 | 日韩免费视频一区二区 | 国产丝袜一区二区三区免费视频 | 日本精品在线观看 | 婷婷综合在线 | 欧美簧片 | 欧美另类视频 | 国产小视频在线 | 羞羞色网站 | hitomi一区二区三区精品 | 免费看91| 久久福利| 伊人伊人 | 精品国产亚洲一区二区三区大结局 | 性一区 | 国产二区三区 | 国产高清视频在线观看播放 | 久久精品亚洲精品国产欧美kt∨ | 久久精品视频免费看 | 成人不卡 | 久久国产精品一区二区三区 | 国产精品久久久久久久7电影 | 免费网站国产 | 精品国产一区二区三区久久久久久 | 久草院线|

<td id="dsguc"></td>

<s id="dsguc"></s>

<strike id="dsguc"></strike>