虛擬主播技術在智能問答中的應用

作者：陳心，王朋愷 2023-12-06 08:01:32

大模型具備強大的自然語言理解和生成能力，但由于大模型的幻覺問題，技術團隊選擇使用大模型結合汽車之家搜索數據來解決用戶問題。大模型主要關注兩方面的能力，一方面是基于若干文檔進行總結歸納出簡短摘要的能力，一方面是直接生成準確答案的能力。

1. 基于虛擬人的元宇宙

1.1 元宇宙

Facebook更名Meta帶火了元宇宙概念，元宇宙是一個與現實世界平行的虛擬世界，在這個虛擬世界中，人們可以像在現實世界中一樣實現實時交互，通過逼真的人、物形象使用戶沉浸于虛擬世界之中，身臨其境地感受周遭環境并與其他用戶進行交互。

1.2 虛擬人

虛擬人是使用數字技術合成的人類形象，早期虛擬人如初音未來、周杰倫和鄧麗君的隔空對唱。最近，隨著人工智能技術的發展，一批新一代，具有類人智能的虛擬人也應運而生。如可與真人對話的央視虛擬主播小C，清華大學虛擬學生華智冰，虛擬美妝達人柳夜熙等。此外，虛擬人也開始走入職場，如阿里巴巴的頭號數字人員工AYAYI。

2. 擬人相關技術介紹

2.1 3D建模

虛擬人的3D模型一種依賴3D動畫師的設計，另外一種則來自對現實世界物體的三維重建。隨著虛擬人技術的不斷發展，出現了越來越多的個性化需求，如將用戶自己的形象只作為虛擬人等，3D建模技術也不斷發展。

傳統3D建模方法主要分為多目視覺、紅外和激光三種。多目視覺是通過多角度拍攝的同一物體的圖像，使用匹配特征點進行建模，這種建模方式受光線、遮擋影響較大，需要從很多角度拍攝照片，才能覆蓋物體全貌；紅外建模的代表就是微軟的Kinect，使用多路紅外光照射物體表面，獲得物體上各點的深度信息，完成3D建模；激光建模的原理與紅外類似，只不過使用的是激光，重建精度較高，但成本也較高，一版用于精度敏感的工業領域。

近年來，隨著深度學習技術的發展，學界和工業界開始越來越多地使用基于“神經輻射場”技術的NeRF，該方法使用深度網絡和多角度輻射數據對輻射場進行建模，進而獲得未覆蓋角度的圖像。

2.2 NLP

虛擬人需要具有跟現實世界人物一樣的語言理解、對話能力，ChatGPT等大語言模型的出現，提供了這個可能，使虛擬人可以與虛擬和現實世界的人物交流，實現類人智能。

2.3 TTS

ChatGPT等大語言模型的發布，大大提升了智能對話的質量，生成式對話模型的圖靈測試逐漸接近人類水平，這種情況下，將文字轉為語音，通過虛擬人“說”出來可以大大增加身臨其境的感覺。將文字轉為語音的TTS技術發揮了重要作用，按處理的實時性，TTS可分為流式和非流式兩種，非流式TTS延遲較大，無法滿足實時性要求。因此，在虛擬人應用中，一般采用流式TTS。

2.4 VR/AR

虛擬世界和現實世界的交互，除了傳統的電腦、電視、手機屏幕外，還可以通過具有3D立體效果的VR頭戴式設備和AR眼鏡等可穿戴設備進行人機交互。

2.5 AIGC

AIGC是一種新興的人工智能內容生成技術，既包括文字，如ChatGPT，又包括圖像，如GAN和基于擴散模型的圖像生成技術。在人機交互過程中，虛擬人對問題的回答的文字、語音，以及動作、口型、表情都需要使用AIGC技術生成。

3. 虛擬主播技術在智能問答中的應用

2022年8月12日，汽車之家正式宣布簽約虛擬數字人IP-“宮玖羽”擔任“汽車之家特邀AI體驗官”。宮玖羽不僅以“機車女神”的形象滿足用戶的情感需求，同時也能完美支持虛擬直播、AR/VR相關應用。基于大模型的智能問答系統滿足了用戶的搜索、查詢需求，虛擬數字人的引入增加了應用的互動屬性，有助于延長用戶的留存時間。

3.1 大模型問答系統

問答系統能夠為用戶提供快速和精準的答案，可以顯著減少用戶在查找信息或解決問題時所需的時間，提升用戶滿意度和體驗，增加用戶黏性，進一步提升用戶留存。

線上應用了基于汽車之家垂類數據訓練的6B參數大模型，答案輸出采用流式輸出的方式，能有效減少用戶等待時間，目前V100S顯卡上第一個token返回時間約30ms，輸出速度約25tokens/s。流程圖如下圖所示。

圖片

3.2 面部表情生成系統

由于智能問答系統的實時性要求，技術團隊選擇了推理時間較短的經典音頻圖像生成網絡Wav2Lip，其模型結構如下圖所示。

Wav2Lip模型使用了SyncNet的判別器和LipGAN的生成器，模型訓練采用了兩階段的方式。在第一階段，訓練了一個用于判斷嘴唇與聲音是否同步的判別器；在第二階段，采用編碼-解碼架構訓練了一個生成器和兩個判別器，其中一個判別器是第一階段預訓好的用于判斷嘴唇與聲音是否同步的判別器，生成器由一個身份編碼器、一個語音編碼器和一個人臉解碼器組成，針對生成的嘴唇區域圖像模糊問題，引入了另外一個圖像質量判別器。

經過技術團隊兩個月的優化，Nvidia V100s顯卡上單幀圖像生成時間達到10ms，峰值顯存占用3GB，綜合考慮TTS及前后處理時間，最終FPS約為25，達到了實時交互的目標。此外，由于線上顯卡資源有限，為了盡可能滿足高并發需要，之家云部署的一個實例可以支持2個用戶，線上一塊Nvidia V100~16G顯卡可以部署5個實例，支持10個用戶并發，考慮實際并發用戶量低于線上用戶總量，上線之后每塊顯卡可支持>10個用戶。

圖片

作者簡介

陳心

■商業智能部-智能用車團隊

■ 簡介：2020年加入汽車之家，目前任職于商業智能部-智能用車團隊，主要負責圖像檢測、識別、生成、AR/VR相關工作。

王朋愷