成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025 | 解決XR算力瓶頸,FovealSeg框架實現毫秒級IOI分割

人工智能 新聞
一項來自紐約大學和 Meta Reality Labs?的聯合研究引發了行業關注:Foveated Instance Segmentation —— 一種結合眼動追蹤信息進行實例分割的新方法,已被?CVPR 2025 正式接收。

本文共同第一作者為紐約大學研究生 Hongyi Zeng 和Wenxuan Liu。合作作者為 Tianhua Xia、Jinhui Chen、Ziyun Li。通訊作者為紐約大學電子工程系和計算機系教授 Sai Qian Zhang,研究方向為高效人工智能,硬件加速和增強現實。

在 XR 正逐步從概念走向落地的今天,如何實現 “按用戶所視,智能計算” 的精準理解,一直是視覺計算領域的核心挑戰之一。

最近,一項來自紐約大學和 Meta Reality Labs 的聯合研究引發了行業關注:Foveated Instance Segmentation —— 一種結合眼動追蹤信息進行實例分割的新方法,已被 CVPR 2025 正式接收。

圖片

  • 代碼連接:https://github.com/SAI-Lab-NYU/Foveated-Instance-Segmentation
  • 論文連接:https://arxiv.org/pdf/2503.21854

1. 從算力瓶頸談起

在當下主流的 AR / VR 頭顯中,內置相機往往具備 720 P、1080 P 乃至 1440 P 的拍攝能力,但要想在如此高分辨率的畫面上做實例分割,推理延遲常常飆升至數百毫秒甚至秒級,遠超人眼在交互中對時延(50–100 ms)所能接受的舒適閾值。論文 Foveated Instance Segmentation 便是從 “為什么一定要整幅圖都分割” 這一疑問切入,指出絕大多數計算其實浪費在用戶根本不關注的區域上。Figure 1 里的臥室示例就說明,用戶目光僅停留在床或衣柜等極小區域,而 Figure 3 則量化了分辨率與延遲的關系:當輸入從 640 × 640 縮到 64 × 64 時,延遲能從 300 ms 量級驟降到十毫秒級。

圖片

圖片

2. 人眼注視模式帶來的靈感

與桌面視覺任務不同,XR 用戶的視線呈 “凝視 — 掃視” 交替:每秒 1–3 次掃視,每次 20–200 ms;掃視期間視覺輸入被大腦抑制,凝視期間只有注視點周圍擁有高視覺敏銳度。Figure 2 直觀展示了凝視 / 掃視節奏,而作者在 Aria Everyday Activities 數據集上的統計進一步揭示:只需像素差分即可將視頻切成 “視段”,段內幀間差異極小;若注視點位移低于 0.1 的閾值,上一幀的分割結果即可直接復用(Figure 4)。這為跨幀掩碼復用和區域限定分割奠定了扎實的人因與統計基礎。

圖片

圖片

3. 系統總覽:FovealSeg 框架

作者據此提出 FovealSeg:內向攝像頭以 120 Hz 捕獲眼部圖像,經眼動追蹤 5–10 ms 就能得出注視坐標;外向攝像頭同步采集前向高分辨率畫面。框架首先檢測是否發生掃視(閾值 α),再判斷場景是否突變(閾值 β),若兩者皆否,就把分割任務限制在當前 gaze 坐標附近的 IOI 區域,并復用歷史掩碼。流程圖見 Figure 5。

圖片

4. 算法核心:FSNet

FovealSeg 的核心網絡模塊是 FSNet:

1. 顯著性自適應下采樣 —— 把 gaze 坐標編碼成距離圖,與原圖拼成四通道張量;Saliency DNN 依據距離圖按需放大 IOI、壓縮背景。

2. 分割 / 分類雙分支 —— 前支路輸出二值 IOI 掩碼,后支路輸出類別向量,二者外積得最終掩碼。

3. 階段式訓練 —— 先固定分割網訓練 Saliency DNN,再反向微調分割 / 分類分支;Dice Loss + 面積加權 Focal Loss 解決小目標易被背景淹沒的頑疾。

Figure 6 依次展示了 IOI 局部放大策略的可視化示意、網絡結構圖和交替訓練流程。

圖片

5. 效果驗證:速度與精度雙贏

在 ADE20K、LVIS、Cityscapes 等數據集上,作者用 Jetson Orin NX 做測試:

  • FSNet 將輸入縮到 64 × 64 仍能把 IoU 提到 0.36 以上,比統一下采樣基線高 ≥ 0.14;
  • FovealSeg 進一步利用跨幀重用,在 α=0.1、β=0.01 設置下把 FLOPs 降到 ND(無下采樣 baseline)基線的 1?75,比 NS(無幀復用 baseline)進一步降低近兩倍。

Figure 7 的柱狀圖直觀呈現了不同 α、β 組合下三種方案的 FLOPs 差距,端到端延遲僅 84 ms,重回實時交互紅線。

圖片

6. 消融與討論

論文還就下采樣倍率、Gaussian Kernel 大小、gaze 輸入等因素做了消融:

  • 下采樣過猛雖降精度,但 FSNet 依舊顯著優于平均池化基線;
  • Kernel 越大,顯著區域權重越高,精度隨之提升。
  • 將 gaze 坐標替換成隨機噪聲,IoU 至少掉 0.3,說明注視信息是方法立足之本。

這些對比雖以表格呈現(Table 3–5),但也佐證了 “人因驅動 + 統計約束” 在模型設計中的必要性。

圖片

7. 小結與展望

FovealSeg 以人眼生理特征為鑰匙,把‘中央精細處理、周邊壓縮簡化’的 foveated 思想真正落到實例分割上:

  • FSNet 巧用顯著性采樣,把計算集中在 IOI,兼顧分割和分類;
  • FovealSeg 又用掃視檢測與幀間復用,把冗余推理壓到極致。

在當前 XR 終端算力有限的背景下,它為 “毫秒級 IOI 分割” 提供了切實可落地的方案;隨著更高精度、低延遲的眼動傳感器普及,以及多 IOI 并行、多任務融合的需求升溫,foveated 視覺計算或將成為 XR 生態里的 “默認范式”,也為更多實時計算密集型任務(如場景理解、三維重建)提供新的能效平衡思路。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-06-25 09:35:04

模型訓練

2020-12-16 22:31:53

AI人工智能

2018-05-08 20:38:21

AI算力FPGA異構計算加速

2023-09-25 07:31:19

算力AI框架

2025-04-03 09:27:44

2023-09-07 11:16:15

GPU機器學習

2025-03-10 08:47:00

模型AI訓練

2024-09-27 08:10:57

2020-12-18 15:29:19

AI 算力人工智能

2021-06-23 19:48:04

曙光

2025-06-09 09:05:00

AI模型數據

2025-05-14 15:03:45

模型訓練AI

2023-11-15 18:55:27

2024-03-28 14:45:56

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美激情一区二区三级高清视频 | 国产乱码精品一品二品 | 久久久成人免费一区二区 | 亚洲区一区二 | 激情综合五月 | 中文字幕乱码视频32 | 欧美精品在线免费观看 | 九九热热九九 | 亚洲欧美在线观看 | 亚洲成av | 亚洲国产精品网站 | 久久9视频 | 中文字幕二区三区 | 国产精品国产成人国产三级 | 亚洲一区 | 久久久久久亚洲精品 | 日本一区二区三区精品视频 | 97伊人| 国产一区视频在线 | 亚洲精品一区二区另类图片 | 国产精品18久久久久久白浆动漫 | 成人黄色在线 | av香蕉| 国产成人小视频 | 欧美日韩在线播放 | 国产高潮好爽受不了了夜夜做 | 久久久久久久国产 | 成人毛片在线观看 | 欧美一区二区视频 | 久久亚洲欧美日韩精品专区 | 亚洲欧美成人影院 | 极品在线| 国产97人人超碰caoprom | 国产成人免费视频网站高清观看视频 | 日韩av中文 | 日日摸天天添天天添破 | 精品成人一区二区 | 免费观看的av | 美女久久 | 中午字幕在线观看 | 在线观看国产视频 |