CVPR 2025 | 解決XR算力瓶頸,FovealSeg框架實現毫秒級IOI分割
本文共同第一作者為紐約大學研究生 Hongyi Zeng 和Wenxuan Liu。合作作者為 Tianhua Xia、Jinhui Chen、Ziyun Li。通訊作者為紐約大學電子工程系和計算機系教授 Sai Qian Zhang,研究方向為高效人工智能,硬件加速和增強現實。
在 XR 正逐步從概念走向落地的今天,如何實現 “按用戶所視,智能計算” 的精準理解,一直是視覺計算領域的核心挑戰之一。
最近,一項來自紐約大學和 Meta Reality Labs 的聯合研究引發了行業關注:Foveated Instance Segmentation —— 一種結合眼動追蹤信息進行實例分割的新方法,已被 CVPR 2025 正式接收。
- 代碼連接:https://github.com/SAI-Lab-NYU/Foveated-Instance-Segmentation
- 論文連接:https://arxiv.org/pdf/2503.21854
1. 從算力瓶頸談起
在當下主流的 AR / VR 頭顯中,內置相機往往具備 720 P、1080 P 乃至 1440 P 的拍攝能力,但要想在如此高分辨率的畫面上做實例分割,推理延遲常常飆升至數百毫秒甚至秒級,遠超人眼在交互中對時延(50–100 ms)所能接受的舒適閾值。論文 Foveated Instance Segmentation 便是從 “為什么一定要整幅圖都分割” 這一疑問切入,指出絕大多數計算其實浪費在用戶根本不關注的區域上。Figure 1 里的臥室示例就說明,用戶目光僅停留在床或衣柜等極小區域,而 Figure 3 則量化了分辨率與延遲的關系:當輸入從 640 × 640 縮到 64 × 64 時,延遲能從 300 ms 量級驟降到十毫秒級。
2. 人眼注視模式帶來的靈感
與桌面視覺任務不同,XR 用戶的視線呈 “凝視 — 掃視” 交替:每秒 1–3 次掃視,每次 20–200 ms;掃視期間視覺輸入被大腦抑制,凝視期間只有注視點周圍擁有高視覺敏銳度。Figure 2 直觀展示了凝視 / 掃視節奏,而作者在 Aria Everyday Activities 數據集上的統計進一步揭示:只需像素差分即可將視頻切成 “視段”,段內幀間差異極小;若注視點位移低于 0.1 的閾值,上一幀的分割結果即可直接復用(Figure 4)。這為跨幀掩碼復用和區域限定分割奠定了扎實的人因與統計基礎。
3. 系統總覽:FovealSeg 框架
作者據此提出 FovealSeg:內向攝像頭以 120 Hz 捕獲眼部圖像,經眼動追蹤 5–10 ms 就能得出注視坐標;外向攝像頭同步采集前向高分辨率畫面。框架首先檢測是否發生掃視(閾值 α),再判斷場景是否突變(閾值 β),若兩者皆否,就把分割任務限制在當前 gaze 坐標附近的 IOI 區域,并復用歷史掩碼。流程圖見 Figure 5。
4. 算法核心:FSNet
FovealSeg 的核心網絡模塊是 FSNet:
1. 顯著性自適應下采樣 —— 把 gaze 坐標編碼成距離圖,與原圖拼成四通道張量;Saliency DNN 依據距離圖按需放大 IOI、壓縮背景。
2. 分割 / 分類雙分支 —— 前支路輸出二值 IOI 掩碼,后支路輸出類別向量,二者外積得最終掩碼。
3. 階段式訓練 —— 先固定分割網訓練 Saliency DNN,再反向微調分割 / 分類分支;Dice Loss + 面積加權 Focal Loss 解決小目標易被背景淹沒的頑疾。
Figure 6 依次展示了 IOI 局部放大策略的可視化示意、網絡結構圖和交替訓練流程。
5. 效果驗證:速度與精度雙贏
在 ADE20K、LVIS、Cityscapes 等數據集上,作者用 Jetson Orin NX 做測試:
- FSNet 將輸入縮到 64 × 64 仍能把 IoU 提到 0.36 以上,比統一下采樣基線高 ≥ 0.14;
- FovealSeg 進一步利用跨幀重用,在 α=0.1、β=0.01 設置下把 FLOPs 降到 ND(無下采樣 baseline)基線的 1?75,比 NS(無幀復用 baseline)進一步降低近兩倍。
Figure 7 的柱狀圖直觀呈現了不同 α、β 組合下三種方案的 FLOPs 差距,端到端延遲僅 84 ms,重回實時交互紅線。
6. 消融與討論
論文還就下采樣倍率、Gaussian Kernel 大小、gaze 輸入等因素做了消融:
- 下采樣過猛雖降精度,但 FSNet 依舊顯著優于平均池化基線;
- Kernel 越大,顯著區域權重越高,精度隨之提升。
- 將 gaze 坐標替換成隨機噪聲,IoU 至少掉 0.3,說明注視信息是方法立足之本。
這些對比雖以表格呈現(Table 3–5),但也佐證了 “人因驅動 + 統計約束” 在模型設計中的必要性。
7. 小結與展望
FovealSeg 以人眼生理特征為鑰匙,把‘中央精細處理、周邊壓縮簡化’的 foveated 思想真正落到實例分割上:
- FSNet 巧用顯著性采樣,把計算集中在 IOI,兼顧分割和分類;
- FovealSeg 又用掃視檢測與幀間復用,把冗余推理壓到極致。
在當前 XR 終端算力有限的背景下,它為 “毫秒級 IOI 分割” 提供了切實可落地的方案;隨著更高精度、低延遲的眼動傳感器普及,以及多 IOI 并行、多任務融合的需求升溫,foveated 視覺計算或將成為 XR 生態里的 “默認范式”,也為更多實時計算密集型任務(如場景理解、三維重建)提供新的能效平衡思路。