實時語音交互的游戲隊友——網(wǎng)易伏羲 AI Agent 創(chuàng)新應(yīng)用

作者：莫名 2024-10-17 08:14:13

本文將重點講解語音 AI 隊友的設(shè)計和實現(xiàn)，及其背后的 AOP（Agent-Oriented-Programming，面向智能體編程）框架，最后還會分享語音技術(shù)在游戲場景的一些創(chuàng)新應(yīng)用。

在 PVP 多人對戰(zhàn)類的游戲中，社恐玩家的社交和情緒價值、對戰(zhàn)局的操控感，無法得到有效滿足。因此，網(wǎng)易伏羲助力《永劫無間》手游率先發(fā)布了全球首創(chuàng)的游戲 Copilot-多模態(tài)實時交互的語音 AI 隊友。它可以在戰(zhàn)斗中自主跑圖、戰(zhàn)斗、聽指令、報戰(zhàn)況，還會和玩家進(jìn)行自由對話，給玩家?guī)順O高的情緒價值。本文將重點講解語音 AI 隊友的設(shè)計和實現(xiàn)，及其背后的 AOP（Agent-Oriented-Programming，面向智能體編程）框架，最后還會分享語音技術(shù)在游戲場景的一些創(chuàng)新應(yīng)用。

一、網(wǎng)易伏羲介紹

網(wǎng)易伏羲是國內(nèi)首個游戲人工智能研究機(jī)構(gòu)，自 2017 年成立以來，已在全球各類學(xué)術(shù)頂級會議中發(fā)表 270 余篇學(xué)術(shù)論文，并持有 600 多項技術(shù)專利，為人工智能、元宇宙、數(shù)字孿生、智能決策技術(shù)等眾多前沿科技領(lǐng)域的理論研究和實踐應(yīng)用做出貢獻(xiàn)。

自成立以來，網(wǎng)易伏羲不斷推陳出新，積極探索前沿技術(shù)和應(yīng)用場景，實現(xiàn)了游戲AI 領(lǐng)域的多項創(chuàng)新技術(shù)突破，推出了基于照片、文字的 AI 捏臉、智能 NPC、劇組模式、語音交互式捏臉和語音 AI 隊友等多個行業(yè)首創(chuàng)的AI 應(yīng)用。通過將 AI 技術(shù)融入游戲系統(tǒng)的各個層面，網(wǎng)易伏羲成功助力《逆水寒》手游、《永劫無間》手游等游戲打造多項創(chuàng)新玩法，極大地提升了玩家的游戲體驗。

近期，網(wǎng)易伏羲助力《永劫無間》手游推出全新的游戲 Copilot——“語音 AI 隊友”，該玩法一經(jīng)推出即受到玩家的高度評價，相關(guān)用戶生成內(nèi)容迅速登上抖音和 B 站熱門榜單。

二、語音 AI 隊友的設(shè)計與實現(xiàn)

傳統(tǒng)游戲中，機(jī)器人往往存在行為呆板、缺乏互動交流等問題。對于有社交焦慮的玩家，他們希望在避免與真人玩家直接語音交流的同時，仍能享受游戲中的社交體驗及多人對戰(zhàn)的樂趣。此外，玩家匹配到技術(shù)不佳或配合度低的隊友，會導(dǎo)致游戲體驗不佳。因此，玩家希望能夠找到一個既能提供高質(zhì)量的游戲技巧支持又能陪伴聊天的對象，從而滿足自身情緒需求，提升整體游戲體驗。

為了滿足玩家對于游戲互動性和情緒價值的需求，《永劫無間》手游推出了一種多模態(tài)實時交互的語音 AI 隊友。AI 隊友能夠在戰(zhàn)斗中自主跑圖、執(zhí)行戰(zhàn)術(shù)動作，并根據(jù)玩家指令匯報戰(zhàn)況。此外，它還能與玩家進(jìn)行自然對話，提供情感支持。對于新手玩家，該語音 AI 隊友還具備教學(xué)引導(dǎo)功能，可以幫助他們更快地熟悉游戲機(jī)制。

在《永劫無間》手游中設(shè)計的 AI 隊友 Agent 能夠綜合處理游戲環(huán)境中的狀態(tài)變化和玩家輸入的語音信息。基于對當(dāng)前環(huán)境狀況的認(rèn)知、決策能力，以及利用游戲知識庫與戰(zhàn)斗記憶，該 AI 隊友能夠做出合理的行動決策并給予相應(yīng)的語音反饋。

在這一應(yīng)用場景下，為實現(xiàn)高效互動和輔助功能，Agent 需要具備的認(rèn)知與決策能力主要包括：語音識別、指令理解、教學(xué)問答、人設(shè)對話、語音生成，以及協(xié)同完成任務(wù)所需的戰(zhàn)斗智能體等。

接下來將詳細(xì)介紹幾個核心能力。

首先，作為 AI 隊友，必須具備“聽得懂”的能力，能夠像真人一樣與玩家實時語音互動。因此在設(shè)計之初就去掉了智能音箱等場景中常用的喚醒詞設(shè)計，比如“Hey Siri”，而是采用全開麥實時語音交互。這種模式雖然極大地提升了用戶體驗，但也帶來了很大挑戰(zhàn)。比如環(huán)境噪音、不同設(shè)備的兼容性、玩家方言口音差異以及存在一些專業(yè)術(shù)語等問題。為了解決這些問題，我們基于 AOP（Agent-Oriented-Programming，面向智能體編程）框架的核心能力，構(gòu)建了自主數(shù)據(jù)閉環(huán)的訓(xùn)練模型，使 Agent 具備自主進(jìn)化的能力，并且構(gòu)建了標(biāo)準(zhǔn)的測試集，有效利用測試和線上數(shù)據(jù)擴(kuò)充數(shù)據(jù)集，推動模型迭代。我們的語音識別在經(jīng)過幾次場景數(shù)據(jù)的閉環(huán)訓(xùn)練之后，在噪聲過濾、熱詞適配等方面都得到了顯著的加強(qiáng)。

除了聽得懂，AI 隊友還需能夠進(jìn)行表達(dá)和對話。通過結(jié)合大語言模型與文語轉(zhuǎn)換（TTS）技術(shù)，AI 隊友實現(xiàn)了自主對話的功能。為了增強(qiáng)語音生成模型的泛化能力，我們利用多年積累的大數(shù)據(jù)對語音基礎(chǔ)大模型進(jìn)行了訓(xùn)練，并針對具體游戲場景進(jìn)行了自適應(yīng)優(yōu)化。

在聽得懂、能說話的基礎(chǔ)上，我們給 AI 隊友設(shè)計了非常豐富的人設(shè)選項，比如彩虹屁萌妹、溫柔體貼御姐以及溫暖深情暖男等等。這些具有鮮明個性的 AI 隊友，不僅可以和玩家產(chǎn)生復(fù)雜的互動關(guān)系，還可以根據(jù)不同的游戲情境展現(xiàn)出其獨特的性格特點，進(jìn)一步增強(qiáng)游戲的沉浸感和互動感。比如上圖中展示的，一個玩家在玩的過程中通過和不同 AI 隊友的交互體驗，畫出了一個關(guān)系圖。

作為游戲的陪玩或隊友，對于游戲的理解需要非常到位，對于問到游戲相關(guān)內(nèi)容時，要做出非常好的回答。為了實現(xiàn) AI 隊友的教學(xué)問答功能，我們構(gòu)建了一個強(qiáng)大的知識庫系統(tǒng)，該系統(tǒng)包括游戲的靜態(tài)知識（如規(guī)則和機(jī)制）和動態(tài)知識（如賽事信息）。當(dāng)玩家提出問題時，AI 會通過 embedding 模型將問題轉(zhuǎn)化為向量，并在向量庫中搜索最匹配的答案。如果答案不明確，則會利用 RAG（檢索增強(qiáng)生成）和更高級的大語言模型進(jìn)行進(jìn)一步的檢索和推理，以確保提供準(zhǔn)確的回答。

AI 隊友還必須擁有基本的游戲執(zhí)行能力。當(dāng)玩家發(fā)出如“集火胡桃”這樣的指令時，系統(tǒng)首先在預(yù)處理模塊中解析并理解該指令的意圖。識別出意圖后，系統(tǒng)將“集火”這一行為類型和“胡桃”這一目標(biāo)轉(zhuǎn)化為狀態(tài)信息，并將其作為戰(zhàn)斗模塊的輸入。最終，基于強(qiáng)化學(xué)習(xí)的戰(zhàn)斗模型會根據(jù)這些輸入信息做出相應(yīng)的行動決策，從而執(zhí)行玩家的指令，做出集火胡桃的動作在客戶端表現(xiàn)出來。

基于上述介紹，可以看到 AI 隊友系統(tǒng)具備多種能力，包括理解語音、自然對話、展現(xiàn)個性以及執(zhí)行任務(wù)等，因此它是一個多智能體系統(tǒng)，類似于人類大腦中不同區(qū)域分工明確且協(xié)同工作的機(jī)制。行業(yè)中已有一些成熟的多智能體框架，如 MetaGPT 和 AutoGEN 等，支持復(fù)雜系統(tǒng)的開發(fā)與應(yīng)用。

在做 Agent 設(shè)計和落地時，常會遇到場景適配的問題，比如語音識別，需要適配環(huán)境噪音、口音等問題。我們是如何解決這些問題的呢？這就引入了下一部分內(nèi)容——AOP 框架。

三、Agent 能力迭代- AOP 數(shù)據(jù)閉環(huán)

AOP(Agent-Oriented-Programming，面向智能體編程) 是網(wǎng)易伏羲設(shè)計的一套全新的編程范式，其核心價值在于為開發(fā)者對接智能體（包括 AI 和人），提供統(tǒng)一范式的接口和服務(wù)，并自動構(gòu)建數(shù)據(jù)閉環(huán)讓智能體具備自主進(jìn)化能力。開發(fā)者可通過 AOP 使用伏羲有靈機(jī)器人平臺預(yù)置的公共智能體能力，包括 ChatGPT、Midjourney 等預(yù)訓(xùn)練模型，以及數(shù)據(jù)標(biāo)注、美術(shù)制作、工程機(jī)械操控等眾包能力，也可針對行業(yè)細(xì)分場景定制化構(gòu)建智能體應(yīng)用。

AOP 的設(shè)計思想，是基于馬爾可夫決策過程（Markov Decision Processes,MDP）的定義來進(jìn)行任務(wù)建模，即 Agent（智能體，包括人類或機(jī)器）在進(jìn)行某個任務(wù)時，首先會和環(huán)境進(jìn)行交互，產(chǎn)生新的狀態(tài)（State），同時環(huán)境會給予相應(yīng)的獎勵（Reward），這一過程循環(huán)往復(fù)，Agent 與環(huán)境之間的交互產(chǎn)生了大量的數(shù)據(jù)。Agent 利用這些新數(shù)據(jù)不斷調(diào)整自身的行為策略，經(jīng)過多次迭代后，Agent 便能夠?qū)W習(xí)到完成特定任務(wù)所需的最佳動作策略。

圖中展示的是我們所定義的一個用于語音識別的智能體。我們詳細(xì)規(guī)定了該智能體的狀態(tài)觀察機(jī)制及其自身的能力，無論是指定使用人工智能還是人工操作。一旦完成接口描述語言（IDL, Interface Description Language）的定義，便能夠生成并編譯出這一智能體。編譯完成后，我們將獲得一段運(yùn)行時代碼，這段代碼提供了同步與異步調(diào)用的接口。接著，利用 AOP 平臺的一鍵發(fā)布功能，即可實現(xiàn)智能體的快速部署。部署完畢后，就可以在具體的業(yè)務(wù)場景中直接調(diào)用此智能體。例如，根據(jù)圖示代碼所示，可以選擇調(diào)用 AI 執(zhí)行的自動語音識別(ASR)功能或人類執(zhí)行的語音識別服務(wù)。

該 AOP 框架已成功應(yīng)用于多個案例之中，除了文本提到的 AI 語音隊友以外，還在《逆水寒》手游的文字捏臉、《永劫無間》手游的交互式捏臉等應(yīng)用中落地。

四、語音技術(shù)在游戲場景的應(yīng)用

最后來分享一下語音技術(shù)在游戲場景的一些其他應(yīng)用。

在游戲場景下，除了實時互動的語音 AI 隊友，我們在音頻內(nèi)容生產(chǎn)上也做了一定工作。游戲場景下的音頻內(nèi)容，主要包含音樂、音效、語音三個方面。游戲音樂，包括背景音樂、劇情、戰(zhàn)斗和關(guān)卡中的音樂等等。音效包括各種各樣的聲音效果，像環(huán)境音效、動作音效等等，例如法術(shù)釋放、技能特效、爆炸聲等，完美的音效設(shè)計可以給玩家?guī)砀玫某两泻突芋w驗。游戲人物語音是指游戲角色所發(fā)出的人聲，常見的有對話語音、戰(zhàn)斗語音，語音設(shè)計師可以根據(jù)角色的角色設(shè)定、角色性格、場景和情節(jié)需求，來創(chuàng)造適合的語音內(nèi)容和表達(dá)方式。在傳統(tǒng)的游戲生產(chǎn)鏈路中，這三部分都是人工完成的，耗費人力和時間很多，隨著 AI 生成式技術(shù)的興起，我們嘗試用技術(shù)去幫助游戲音頻設(shè)計師更快更好地生產(chǎn)內(nèi)容。下面，將以人物語音為例，介紹我們在游戲里面的一些落地案例。

《逆水寒》手游自去年上線就獲得了很大的關(guān)注度，玩家可以在汴京、虹橋等很多地方，和瀾兒、高衙內(nèi)等數(shù)十個 NPC 進(jìn)行互動交流，這種細(xì)致入微的互動，為游戲增添了更多的樂趣和豐富性。游戲里大家所聽到的這些 NPC 的聲音，就是我們語音合成技術(shù)所實時合成的。形形色色的會說話的 NPC，增加了《逆水寒》手游街頭巷尾的煙火氣息，讓玩家獲得了更好的沉浸式體驗。

為了增強(qiáng)游戲的社交性、可玩性，提高游戲豐富度在《逆水寒》手游中，我們首次在游戲里加入了聲音的 DIY 玩法——自定義技能喊話，玩家可以設(shè)置技能釋放時候播放的語音內(nèi)容，玩家可以輸入文本，選擇音色進(jìn)行定制，也可以輸入自己的語音進(jìn)行音色轉(zhuǎn)換來定制。

另外，我們還應(yīng)用了歌聲合成和轉(zhuǎn)換技術(shù)，來制作歌聲內(nèi)容。

在游戲場景中，對變聲器，即語音轉(zhuǎn)換能力的需求比語音合成更多，我們在這塊做了深入的探索，發(fā)表的論文有 DualVC、DualVC2、DualVC3、Expressive-VC 等等。比如在直播時可以選擇將自己的聲音更換為另一種特定的音色。實時變聲器可以在很多玩法上做嵌套，但也會遇到法律邊界的挑戰(zhàn)。

圍繞語音生成，網(wǎng)易伏羲在 Codec 和 LLM 兩個方面都做了探索。Codec 方面，網(wǎng)易伏羲基于自身技術(shù)積累，自研了適配生成式大語言模型的語音 Codec，不僅實現(xiàn)了語音的離散化和高質(zhì)量重建，而且做到了內(nèi)容屬性與音色屬性的解耦。

LLM 方面，在文本生成語音時，使用了 Speech LLM，利用數(shù)十萬小時的語音數(shù)據(jù)訓(xùn)練，融合 SFT+RLHF 等手段，實現(xiàn)了媲美真人的語音合成效果。

責(zé)任編輯：姜華來源： DataFunTalk

人工智能語音 AI 隊友 AI 技術(shù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實時語音交互的游戲隊友——網(wǎng)易伏羲 AI Agent 創(chuàng)新應(yīng)用

一、網(wǎng)易伏羲介紹

二、語音 AI 隊友的設(shè)計與實現(xiàn)

三、Agent 能力迭代- AOP 數(shù)據(jù)閉環(huán)

四、語音技術(shù)在游戲場景的應(yīng)用