成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃 精華

發布于 2024-6-3 09:53
瀏覽
0收藏

開視頻遠程會議的時候,很多人都不喜歡打開攝像頭。即使開了,在界面上大家也都被框在不同的窗口里。雖然這種形式操作起來很方便,但總是缺乏點臨場感。


最近,谷歌提出了一項研究旨在解決這個問題,這個名叫 ChatDirector 的技術可以使用靜態的 2D 頭像生成 3D 虛擬人,讓大家一同「坐在會議室里」開會,只是看起來樣子有點夸張:


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

ChatDirector 通過空間化視頻頭像、虛擬環境和自動布局轉換,構建了一個擬真的虛擬環境。

雖說只是早期研究,虛擬人物口型也能準確對上,但總覺得有一點喜劇效果。對此大片評論表示繃不住了:這或許能給在線會議創造出輕松的氣氛。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

ChatDirector 是一個研究原型,它將傳統的視頻會議轉變為使用 3D 視頻頭像、共享 3D 場景和自動布局轉換。


此前,谷歌展示的 Visual Captions 和開源的 ARChat,以促進實時視覺效果的口頭交流為目標。在 CHI 2024 上展示的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》中,谷歌介紹了一種新原型,通過在空間感知共享會議環境中為所有參與者提供語音驅動的視覺輔助,增強了傳統的基于 2D 屏幕的視頻會議體驗。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

設計思考


谷歌研究人員邀請了來自公司內部不同崗位的十位參與者,包括軟件工程師、研究人員和 UX 設計師,共同討論影響虛擬會議質量的因素,分析視頻會議系統和面對面互動的特點,最后將建議提煉為原型系統的五個基本考慮因素:


  • DC1、通過空間感知可視化增強虛擬會議環境。處于同一個空間對于改善視頻會議體驗來說至關重要。好用的系統應采用典型的面對面會議形式,將與會者安排在指定座位的桌子周圍,構建切實的共同存在感和空間定位感。
  • DC2、不能簡單復制現實會議,而需要提供語音驅動的協助。鑒于小組對話中發言人頻繁更換、話題快速轉換,系統應提供額外的數字功能,讓參與者跟進對話流程并積極參與會議。
  • DC3、重現面對面互動的視覺效果。在開虛擬會議時,參與者通常在電腦前保持靜止。系統應增強他們在屏幕上的動作,以模仿頭部轉動和眼神接觸等動態身體動作,這些動作可作為更有效地跟進對話的提示。
  • DC4、盡量減少認知負荷。系統應避免同時顯示過多信息,或要求用戶頻繁操作。這種方法有助于防止分心,并允許參與者更有效地專注于傾聽和說話。
  • DC5、確保兼容性和可擴展性。系統應與標準視頻會議設備(如帶攝像頭的筆記本電腦)兼容,以促進廣泛采用。這種兼容性還將促進其他生產力功能和工具(如屏幕共享和其他應用程序)的無縫集成,以增強系統的整體效用。


空間感知的場景渲染 pipeline


為了解決 DC1(通過空間感知可視化增強虛擬會議環境)和 DC5(確保兼容性和可擴展性),谷歌首先設計了一個渲染 pipeline,以將人的視覺呈現重建為 3D 肖像頭像。


谷歌在輕量級深度推理神經網絡 U-Net 上構建了此 pipeline,并結合了自定義渲染方法,該方法將 RGB 和深度圖像作為輸入并輸出 3D 肖像頭像網格。


該 pipeline 從深度學習 (DL) 網絡開始,利用該網絡從實時 RGB 網絡攝像頭視頻中推斷深度。接著使用 MediaPipe 自拍分割模型分割前景,并將處理后的圖像饋送到 U-Net 神經網絡。


其中,編碼器逐漸縮小圖像,而解碼器將特征分辨率提高回原始分辨率。來自編碼器的 DL 特征連接到具有相同分辨率的相應層,以幫助恢復幾何細節,例如深度邊界和薄結構。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

下圖所示的自定義渲染方法將 RGB 和深度圖像作為輸入,并重建 3D 肖像頭像。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

研究團隊開發了一個空間感知的視頻會議環境,可以在 3D 會議環境中顯示遠程參與者的 3D 肖像化身。


在每個本地用戶的設備上,ChatDirector 會產生:


  1. 附帶由 Web Speech API 識別的語音文本的音頻輸入
  2. 由 U-Net 神經網絡推斷的 RGB 圖像和深度圖像。


同時,當系統接收到每個遠程用戶的數據后,會重建 3D 肖像化身,并在本地用戶的屏幕上顯示出來。


為了實現視差效果,該團隊根據使用 MediaPipe 人臉檢測所檢測到的本地用戶的頭部移動來調整虛擬渲染攝像機。音頻會被用作輸入到下一節中將要解釋的語音驅動布局轉換算法。


數據通信則通過 WebRTC 實現。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

ChatDirector 的系統架構。

2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

一個本地用戶對具有 3D 肖像頭像的空間感知視頻會議環境的視角。

語音驅動的布局轉換算法


為了解決 DC2(提供超越簡單復制現實世界聚會的語音驅動輔助)和 DC3(重現面對面互動的視覺線索),研究者開發了一個決策樹算法。


該算法根據正在進行的對話調整渲染場景的布局和化身的行為,允許用戶通過接收自動視覺輔助來跟隨這些對話,從而不需要在 DC4(最小化認知負荷)上額外浪費精力。


對于算法的輸入,他們將群組聊天建模為一系列語音輪轉。


在每個時刻,每個與會者都將處于三種語音狀態之一:


  1. 靜默:與會者正在聽取他人發言;
  2. 與某人交談(Talk-to):與會者正在與特定人交談;具體來說,通過偵測參與者的姓名(當他們加入會議室時所輸入的結果)來檢測使用是否在與某人交談。
  3. 宣布(Announce):與會者正在向所有人發言。通過使用關鍵詞檢測(如「everybody」、「ok, everybody」),Web 語音 API 來進行識別此種類型的語音狀態。


該算法產生了兩個增強視覺輔助的關鍵輸出(DC3)。第一個組件是布局狀態,它決定了會議場景的整體可視化。


這包括幾種模式:


  • 「一對一(One-on-One」,僅顯示一個遠程參與者,以便與本地用戶進行直接互動;
  • 「兩兩對話(Pairwise)」,將兩個遠程參與者并排排列,表示他們的一對一對話;
  • 「全景(Full-view)」,默認設置顯示所有參與者,表示一般討論。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

ChatDirector 的布局轉換算法。

2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

算法輸出:布局狀態。從左至右分別為:一對一(One-on-One)語音狀態,兩兩對話(Pairwise)語音狀態,全景(Full-view)語音狀態。

網絡視頻開會這下更逼真了,領導和你可以交換眼神了。


研究團隊基于 3D 肖像化化身渲染能力,通過操縱遠程化身的行為來模擬類似于面對面會議中的眼神交流。


他們通過將化身狀態(Avatar State)設立為算法的附加輸出,以控制每個化身的方向。


在這種設置中,每個化身可以處于兩種狀態之一:「本地」狀態,其中化身旋轉面向本地用戶,和「遠程」狀態,其中化身旋轉與另一個遠程參與者互動。

2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區


算法輸出:化身(聊天室中代表使用者的形象)狀態。當左側用戶與右側用戶交談時,化身狀態從「本地」狀態轉變為「遠程」狀態,此時左側化身會轉向右側化身。


定性表現評估:用戶研究

?

為了評估基于語音的布局轉換算法的性能以及空間感知會議場景的整體有效性,研究團隊進行了一項實驗室研究,涉及 16 名參與者,分成四個團隊。


與作為基準的傳統視頻會議相比,研究發現 ChatDirector 顯著改善了與語音處理相關的問題,這表現在用戶對注意力轉移輔助的積極評價上。


此外,該團隊對調查結果還進行了威爾科克森符號秩檢驗(Wilcoxon Signed-Rank Test )。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

會議環境的空間感知和語音驅動布局轉換算法的用戶研究結果(N=16)。( *:p<.05, **: p<.01, *** :p< .001)

此外,根據 Temple Presence Inventory(TPI)評分,與標準的基于 2D 的視頻會議系統相比,它提升了共存感和參與度。


2D頭像生成3D虛擬人開視頻會,谷歌新作讓人難繃-AI.x社區

Temple Presence Inventory(TPI)結果顯示了 ChatDirector 系統的社交存在評級(N=16)。( *:p<.05, **: p<.01, *** :p< .001)

由于 ChatDirector 基于視頻會議室使用者的肖像化身,肖像安全的問題將成為未來研究發展的重中之重。


研究團隊在最后表示,希望 ChatDirector 能夠激發在利用先進的感知和交互技術來增加共同在場的感受和參與度日常計算平臺上的持續創新。


研究人員同時指出,解決負責任的 AI 考慮及其數字相似性的含義是極其重要的。因為以這種方式轉換「用戶的視頻」可能會引發關于他們對自身肖像控制的問題,所以需要進一步的研究和仔細考慮。


當這類工具部署時,至關重要的是需要基于用戶的同意并遵守相關道德準則。


該團隊還提供了一個 ChatDirector 的交互技術演示,在視頻內容里展示了更多的 3D 視頻示例。


視頻鏈接:https://youtu.be/mO2rZL48C1Y


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/Z0P_f7DureBhviMSYvLNMw??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一区二区三区 | 午夜伦理影院 | 欧美片网站免费 | 中文字幕视频在线观看免费 | 免费在线观看成人 | 九九视频网| 国产色在线 | 992人人草| 最新国产视频 | 一级片在线观看 | 夜夜夜夜夜夜曰天天天 | 国产成人在线视频 | 国产男人的天堂 | 国产一区二区三区久久久久久久久 | 日韩在线小视频 | 精品久久久久久久 | 91精品国产91久久综合桃花 | 国产精品国产精品国产专区不卡 | 国产69久久精品成人看动漫 | 天天干天天色 | 操操日 | 久久国产精品视频免费看 | 毛片一区二区三区 | 国产精品欧美一区二区三区 | 国产在线精品一区二区三区 | 亚洲免费观看视频网站 | 欧美一二三四成人免费视频 | 国产三级一区二区三区 | 久久久久久亚洲欧洲 | 中文字幕在线视频网站 | 欧美在线国产精品 | 久久这里只有精品首页 | 自拍偷拍第一页 | 亚洲一区二区三区视频免费观看 | 一本一道久久a久久精品蜜桃 | 九色91视频| 欧美成人猛片aaaaaaa | 激情五月婷婷丁香 | 国产日韩一区二区三区 | 久久精品av | 亚洲天堂av一区 |