成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實時語音交互的游戲隊友——網(wǎng)易伏羲 AI Agent 創(chuàng)新應(yīng)用

人工智能
本文將重點講解語音 AI 隊友的設(shè)計和實現(xiàn),及其背后的 AOP(Agent-Oriented-Programming,面向智能體編程)框架,最后還會分享語音技術(shù)在游戲場景的一些創(chuàng)新應(yīng)用。

在 PVP 多人對戰(zhàn)類的游戲中,社恐玩家的社交和情緒價值、對戰(zhàn)局的操控感,無法得到有效滿足。因此,網(wǎng)易伏羲助力《永劫無間》手游率先發(fā)布了全球首創(chuàng)的游戲 Copilot-多模態(tài)實時交互的語音 AI 隊友。它可以在戰(zhàn)斗中自主跑圖、戰(zhàn)斗、聽指令、報戰(zhàn)況,還會和玩家進(jìn)行自由對話,給玩家?guī)順O高的情緒價值。本文將重點講解語音 AI 隊友的設(shè)計和實現(xiàn),及其背后的 AOP(Agent-Oriented-Programming,面向智能體編程)框架,最后還會分享語音技術(shù)在游戲場景的一些創(chuàng)新應(yīng)用。

一、網(wǎng)易伏羲介紹

網(wǎng)易伏羲是國內(nèi)首個游戲人工智能研究機(jī)構(gòu),自 2017 年成立以來,已在全球各類學(xué)術(shù)頂級會議中發(fā)表 270 余篇學(xué)術(shù)論文,并持有 600 多項技術(shù)專利,為人工智能、元宇宙、數(shù)字孿生、智能決策技術(shù)等眾多前沿科技領(lǐng)域的理論研究和實踐應(yīng)用做出貢獻(xiàn)。

圖片

自成立以來,網(wǎng)易伏羲不斷推陳出新,積極探索前沿技術(shù)和應(yīng)用場景,實現(xiàn)了游戲AI 領(lǐng)域的多項創(chuàng)新技術(shù)突破,推出了基于照片、文字的 AI 捏臉、智能 NPC、劇組模式、語音交互式捏臉和語音 AI 隊友等多個行業(yè)首創(chuàng)的AI 應(yīng)用。通過將 AI 技術(shù)融入游戲系統(tǒng)的各個層面,網(wǎng)易伏羲成功助力《逆水寒》手游、《永劫無間》手游等游戲打造多項創(chuàng)新玩法,極大地提升了玩家的游戲體驗。

近期,網(wǎng)易伏羲助力《永劫無間》手游推出全新的游戲 Copilot——“語音 AI 隊友”,該玩法一經(jīng)推出即受到玩家的高度評價,相關(guān)用戶生成內(nèi)容迅速登上抖音和 B 站熱門榜單。

二、語音 AI 隊友的設(shè)計與實現(xiàn)

圖片

傳統(tǒng)游戲中,機(jī)器人往往存在行為呆板、缺乏互動交流等問題。對于有社交焦慮的玩家,他們希望在避免與真人玩家直接語音交流的同時,仍能享受游戲中的社交體驗及多人對戰(zhàn)的樂趣。此外,玩家匹配到技術(shù)不佳或配合度低的隊友,會導(dǎo)致游戲體驗不佳。因此,玩家希望能夠找到一個既能提供高質(zhì)量的游戲技巧支持又能陪伴聊天的對象,從而滿足自身情緒需求,提升整體游戲體驗。

為了滿足玩家對于游戲互動性和情緒價值的需求,《永劫無間》手游推出了一種多模態(tài)實時交互的語音 AI 隊友。AI 隊友能夠在戰(zhàn)斗中自主跑圖、執(zhí)行戰(zhàn)術(shù)動作,并根據(jù)玩家指令匯報戰(zhàn)況。此外,它還能與玩家進(jìn)行自然對話,提供情感支持。對于新手玩家,該語音 AI 隊友還具備教學(xué)引導(dǎo)功能,可以幫助他們更快地熟悉游戲機(jī)制。

在《永劫無間》手游中設(shè)計的 AI 隊友 Agent 能夠綜合處理游戲環(huán)境中的狀態(tài)變化和玩家輸入的語音信息。基于對當(dāng)前環(huán)境狀況的認(rèn)知、決策能力,以及利用游戲知識庫與戰(zhàn)斗記憶,該 AI 隊友能夠做出合理的行動決策并給予相應(yīng)的語音反饋。

圖片

在這一應(yīng)用場景下,為實現(xiàn)高效互動和輔助功能,Agent 需要具備的認(rèn)知與決策能力主要包括:語音識別、指令理解、教學(xué)問答、人設(shè)對話、語音生成,以及協(xié)同完成任務(wù)所需的戰(zhàn)斗智能體等。

接下來將詳細(xì)介紹幾個核心能力。

圖片

首先,作為 AI 隊友,必須具備“聽得懂”的能力,能夠像真人一樣與玩家實時語音互動。因此在設(shè)計之初就去掉了智能音箱等場景中常用的喚醒詞設(shè)計,比如“Hey Siri”,而是采用全開麥實時語音交互。這種模式雖然極大地提升了用戶體驗,但也帶來了很大挑戰(zhàn)。比如環(huán)境噪音、不同設(shè)備的兼容性、玩家方言口音差異以及存在一些專業(yè)術(shù)語等問題。為了解決這些問題,我們基于 AOP(Agent-Oriented-Programming,面向智能體編程)框架的核心能力,構(gòu)建了自主數(shù)據(jù)閉環(huán)的訓(xùn)練模型,使 Agent 具備自主進(jìn)化的能力,并且構(gòu)建了標(biāo)準(zhǔn)的測試集,有效利用測試和線上數(shù)據(jù)擴(kuò)充數(shù)據(jù)集,推動模型迭代。我們的語音識別在經(jīng)過幾次場景數(shù)據(jù)的閉環(huán)訓(xùn)練之后,在噪聲過濾、熱詞適配等方面都得到了顯著的加強(qiáng)。

圖片

除了聽得懂,AI 隊友還需能夠進(jìn)行表達(dá)和對話。通過結(jié)合大語言模型與文語轉(zhuǎn)換(TTS)技術(shù),AI 隊友實現(xiàn)了自主對話的功能。為了增強(qiáng)語音生成模型的泛化能力,我們利用多年積累的大數(shù)據(jù)對語音基礎(chǔ)大模型進(jìn)行了訓(xùn)練,并針對具體游戲場景進(jìn)行了自適應(yīng)優(yōu)化。

圖片

在聽得懂、能說話的基礎(chǔ)上,我們給 AI 隊友設(shè)計了非常豐富的人設(shè)選項,比如彩虹屁萌妹、溫柔體貼御姐以及溫暖深情暖男等等。這些具有鮮明個性的 AI 隊友,不僅可以和玩家產(chǎn)生復(fù)雜的互動關(guān)系,還可以根據(jù)不同的游戲情境展現(xiàn)出其獨特的性格特點,進(jìn)一步增強(qiáng)游戲的沉浸感和互動感。比如上圖中展示的,一個玩家在玩的過程中通過和不同 AI 隊友的交互體驗,畫出了一個關(guān)系圖。

圖片

作為游戲的陪玩或隊友,對于游戲的理解需要非常到位,對于問到游戲相關(guān)內(nèi)容時,要做出非常好的回答。為了實現(xiàn) AI 隊友的教學(xué)問答功能,我們構(gòu)建了一個強(qiáng)大的知識庫系統(tǒng),該系統(tǒng)包括游戲的靜態(tài)知識(如規(guī)則和機(jī)制)和動態(tài)知識(如賽事信息)。當(dāng)玩家提出問題時,AI 會通過 embedding 模型將問題轉(zhuǎn)化為向量,并在向量庫中搜索最匹配的答案。如果答案不明確,則會利用 RAG(檢索增強(qiáng)生成)和更高級的大語言模型進(jìn)行進(jìn)一步的檢索和推理,以確保提供準(zhǔn)確的回答。

圖片

AI 隊友還必須擁有基本的游戲執(zhí)行能力。當(dāng)玩家發(fā)出如“集火胡桃”這樣的指令時,系統(tǒng)首先在預(yù)處理模塊中解析并理解該指令的意圖。識別出意圖后,系統(tǒng)將“集火”這一行為類型和“胡桃”這一目標(biāo)轉(zhuǎn)化為狀態(tài)信息,并將其作為戰(zhàn)斗模塊的輸入。最終,基于強(qiáng)化學(xué)習(xí)的戰(zhàn)斗模型會根據(jù)這些輸入信息做出相應(yīng)的行動決策,從而執(zhí)行玩家的指令,做出集火胡桃的動作在客戶端表現(xiàn)出來。

基于上述介紹,可以看到 AI 隊友系統(tǒng)具備多種能力,包括理解語音、自然對話、展現(xiàn)個性以及執(zhí)行任務(wù)等,因此它是一個多智能體系統(tǒng),類似于人類大腦中不同區(qū)域分工明確且協(xié)同工作的機(jī)制。行業(yè)中已有一些成熟的多智能體框架,如 MetaGPT 和 AutoGEN 等,支持復(fù)雜系統(tǒng)的開發(fā)與應(yīng)用。

在做 Agent 設(shè)計和落地時,常會遇到場景適配的問題,比如語音識別,需要適配環(huán)境噪音、口音等問題。我們是如何解決這些問題的呢?這就引入了下一部分內(nèi)容——AOP 框架。

三、Agent 能力迭代- AOP 數(shù)據(jù)閉環(huán)

圖片

AOP(Agent-Oriented-Programming,面向智能體編程) 是網(wǎng)易伏羲設(shè)計的一套全新的編程范式,其核心價值在于為開發(fā)者對接智能體(包括 AI 和人),提供統(tǒng)一范式的接口和服務(wù),并自動構(gòu)建數(shù)據(jù)閉環(huán)讓智能體具備自主進(jìn)化能力。開發(fā)者可通過 AOP 使用伏羲有靈機(jī)器人平臺預(yù)置的公共智能體能力,包括 ChatGPT、Midjourney 等預(yù)訓(xùn)練模型,以及數(shù)據(jù)標(biāo)注、美術(shù)制作、工程機(jī)械操控等眾包能力,也可針對行業(yè)細(xì)分場景定制化構(gòu)建智能體應(yīng)用。

AOP 的設(shè)計思想,是基于馬爾可夫決策過程(Markov Decision Processes,MDP)的定義來進(jìn)行任務(wù)建模,即 Agent(智能體,包括人類或機(jī)器)在進(jìn)行某個任務(wù)時,首先會和環(huán)境進(jìn)行交互,產(chǎn)生新的狀態(tài)(State),同時環(huán)境會給予相應(yīng)的獎勵(Reward),這一過程循環(huán)往復(fù),Agent 與環(huán)境之間的交互產(chǎn)生了大量的數(shù)據(jù)。Agent 利用這些新數(shù)據(jù)不斷調(diào)整自身的行為策略,經(jīng)過多次迭代后,Agent 便能夠?qū)W習(xí)到完成特定任務(wù)所需的最佳動作策略。

圖片

圖片

圖中展示的是我們所定義的一個用于語音識別的智能體。我們詳細(xì)規(guī)定了該智能體的狀態(tài)觀察機(jī)制及其自身的能力,無論是指定使用人工智能還是人工操作。一旦完成接口描述語言(IDL, Interface Description Language)的定義,便能夠生成并編譯出這一智能體。編譯完成后,我們將獲得一段運(yùn)行時代碼,這段代碼提供了同步與異步調(diào)用的接口。接著,利用 AOP 平臺的一鍵發(fā)布功能,即可實現(xiàn)智能體的快速部署。部署完畢后,就可以在具體的業(yè)務(wù)場景中直接調(diào)用此智能體。例如,根據(jù)圖示代碼所示,可以選擇調(diào)用 AI 執(zhí)行的自動語音識別(ASR)功能或人類執(zhí)行的語音識別服務(wù)。

該 AOP 框架已成功應(yīng)用于多個案例之中,除了文本提到的 AI 語音隊友以外,還在《逆水寒》手游的文字捏臉、《永劫無間》手游的交互式捏臉等應(yīng)用中落地。

四、語音技術(shù)在游戲場景的應(yīng)用

最后來分享一下語音技術(shù)在游戲場景的一些其他應(yīng)用。

圖片

在游戲場景下,除了實時互動的語音 AI 隊友,我們在音頻內(nèi)容生產(chǎn)上也做了一定工作。游戲場景下的音頻內(nèi)容,主要包含音樂、音效、語音三個方面。游戲音樂,包括背景音樂、劇情、戰(zhàn)斗和關(guān)卡中的音樂等等。音效包括各種各樣的聲音效果,像環(huán)境音效、動作音效等等,例如法術(shù)釋放、技能特效、爆炸聲等,完美的音效設(shè)計可以給玩家?guī)砀玫某两泻突芋w驗。游戲人物語音是指游戲角色所發(fā)出的人聲,常見的有對話語音、戰(zhàn)斗語音,語音設(shè)計師可以根據(jù)角色的角色設(shè)定、角色性格、場景和情節(jié)需求,來創(chuàng)造適合的語音內(nèi)容和表達(dá)方式。在傳統(tǒng)的游戲生產(chǎn)鏈路中,這三部分都是人工完成的,耗費人力和時間很多,隨著 AI 生成式技術(shù)的興起,我們嘗試用技術(shù)去幫助游戲音頻設(shè)計師更快更好地生產(chǎn)內(nèi)容。下面,將以人物語音為例,介紹我們在游戲里面的一些落地案例。

圖片

《逆水寒》手游自去年上線就獲得了很大的關(guān)注度,玩家可以在汴京、虹橋等很多地方,和瀾兒、高衙內(nèi)等數(shù)十個 NPC 進(jìn)行互動交流,這種細(xì)致入微的互動,為游戲增添了更多的樂趣和豐富性。游戲里大家所聽到的這些 NPC 的聲音,就是我們語音合成技術(shù)所實時合成的。形形色色的會說話的 NPC,增加了《逆水寒》手游街頭巷尾的煙火氣息,讓玩家獲得了更好的沉浸式體驗。

為了增強(qiáng)游戲的社交性、可玩性,提高游戲豐富度在《逆水寒》手游中,我們首次在游戲里加入了聲音的 DIY 玩法——自定義技能喊話,玩家可以設(shè)置技能釋放時候播放的語音內(nèi)容,玩家可以輸入文本,選擇音色進(jìn)行定制,也可以輸入自己的語音進(jìn)行音色轉(zhuǎn)換來定制。

另外,我們還應(yīng)用了歌聲合成和轉(zhuǎn)換技術(shù),來制作歌聲內(nèi)容。

在游戲場景中,對變聲器,即語音轉(zhuǎn)換能力的需求比語音合成更多,我們在這塊做了深入的探索,發(fā)表的論文有 DualVC、DualVC2、DualVC3、Expressive-VC 等等。比如在直播時可以選擇將自己的聲音更換為另一種特定的音色。實時變聲器可以在很多玩法上做嵌套,但也會遇到法律邊界的挑戰(zhàn)。

圖片

圍繞語音生成,網(wǎng)易伏羲在 Codec 和 LLM 兩個方面都做了探索。Codec 方面,網(wǎng)易伏羲基于自身技術(shù)積累,自研了適配生成式大語言模型的語音 Codec,不僅實現(xiàn)了語音的離散化和高質(zhì)量重建,而且做到了內(nèi)容屬性與音色屬性的解耦。

LLM 方面,在文本生成語音時,使用了 Speech LLM,利用數(shù)十萬小時的語音數(shù)據(jù)訓(xùn)練,融合 SFT+RLHF 等手段,實現(xiàn)了媲美真人的語音合成效果。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-09-20 08:31:49

AIGA深度學(xué)習(xí)

2025-05-09 06:30:52

2017-12-22 21:42:24

游戲語音游戲?qū)崟r語音

2025-02-17 10:36:00

微軟開源模型

2018-03-01 09:46:11

游戲實時語音

2021-11-11 19:35:16

人工智能AI深度學(xué)習(xí)

2024-11-05 09:32:47

2025-06-06 09:46:57

2020-09-21 07:00:00

語音識別AI人工智能
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: aaaa日韩 | 久久久性| 紧缚调教一区二区三区视频 | 欧美三级电影在线播放 | 久久精品国产久精国产 | 亚洲一区二区中文字幕 | 一级a爱片性色毛片免费 | 天天躁日日躁aaaa视频 | 日韩不卡在线 | 高清久久久 | 欧美一区二区三区在线 | 久久久久久国产精品久久 | 97精品国产97久久久久久免费 | 成人欧美一区二区三区1314 | 亚洲激情一区二区 | 国产欧美一区二区三区在线播放 | 欧美激情视频一区二区三区免费 | 在线观看欧美一区 | 青青99 | 天天视频成人 | 成人久久18免费网站图片 | 国产成人精品视频在线观看 | 在线一级片 | 久久成人国产精品 | 天天综合网永久 | 国产成人a亚洲精品 | 少妇一区在线观看 | 久久精品福利视频 | 日日碰狠狠躁久久躁婷婷 | 欧美一区2区三区4区公司 | 亚洲二区在线 | 国产一级一级毛片 | 精品欧美| 亚洲成人av一区二区 | 综合网中文字幕 | 色站综合 | 91国语清晰打电话对白 | 国产视频久久 | 91久久精品视频 | 手机日韩| 成人国产一区二区三区精品麻豆 |