光動(dòng)嘴就能玩原神！用AI切換角色，還能攻擊敵人，網(wǎng)友：“綾華，使用神里流·霜滅”

作者：文摘菌 2022-07-28 12:18:40

X-VLM是一種基于視覺語言模型（VLM）的多粒度模型，由圖像編碼器、文本編碼器和跨模態(tài)編碼器組成，跨模態(tài)編碼器在視覺特征和語言特征之間進(jìn)行跨模態(tài)注意，以學(xué)習(xí)視覺語言對齊。

說到這兩年風(fēng)靡全球的國產(chǎn)游戲，原神肯定是當(dāng)仁不讓。

根據(jù)5月公布的本年度Q1季度手游收入調(diào)查報(bào)告，在抽卡手游里《原神》以5.67億美金的絕對優(yōu)勢穩(wěn)穩(wěn)拿下第一，這也宣告《原神》在上線短短18個(gè)月之后單在手機(jī)平臺(tái)總收入就突破30億美金（大約RM130億）。

如今，開放須彌前最后的2.8海島版本姍姍來遲，在漫長的長草期后終于又有新的劇情和區(qū)域可以肝了。

不過不知道有多少“肝帝”，現(xiàn)在海島已經(jīng)滿探索，又開始長草了。

寶箱總共182個(gè)+1個(gè)摩拉箱（不計(jì)入）

長草期根本沒在怕的，原神區(qū)從來不缺整活兒。

這不，在長草期間，就有玩家用XVLM+wenet+STARK做了一個(gè)語音控制玩原神的項(xiàng)目。

比如，當(dāng)說出“用戰(zhàn)術(shù)3攻擊中間的火史萊姆”時(shí)，鐘離先是一個(gè)套盾，凌華一個(gè)霰步后緊接著一個(gè)“失禮了”，團(tuán)滅了4只火史萊姆。

同樣，在說出“攻擊中間的大丘丘人”后，迪奧娜長E套盾，凌華緊接著一個(gè)E然后3A一重漂亮地收拾掉了兩只大丘丘人。

可以在左下方看到，整個(gè)過程都沒有用手進(jìn)行任何操作。

文摘菌直呼內(nèi)行，以后打本連手也能省了，并表示媽媽再也不用擔(dān)心玩原神玩出腱鞘炎了！

目前該項(xiàng)目已經(jīng)在GitHub上開源：

GitHub鏈接：

https://github.com/7eu7d7/genshin_voice_play

好好的原神，硬是被玩成了神奇寶貝

這樣的整活項(xiàng)目自然也是吸引到了不少原神長草玩家的目光。

比如有玩家就建議到，可以設(shè)計(jì)得更中二一點(diǎn)，直接用角色名加技能名，畢竟“戰(zhàn)術(shù)3”這樣的指令觀眾也無法第一時(shí)間知道，而“鐘離，使用地心”就很容易代入游戲體驗(yàn)。

更有網(wǎng)友表示，既然都能對怪指令，那是不是也可以對人物語音，比如“龜龜，使用霜滅”。

龜龜每日疑惑.jpg

不過，這么這些指令怎么看上去有股似曾相識(shí)的味道？

對此up主“薛定諤の彩虹貓”表示，喊技能的話語速可能會(huì)跟不上，攻擊速度會(huì)變慢，這才自己預(yù)設(shè)了一套。

不過像是一些經(jīng)典隊(duì)伍，比如“萬達(dá)國際”“雷九萬班”的輸出手法倒也算是相對固定，預(yù)設(shè)攻擊順序和模式似乎也行得通。

當(dāng)然除了玩梗之外，網(wǎng)友們也在集思廣益，提出了不少優(yōu)化意見。

比如直接用“1Q”讓1號(hào)位角色放大招，重?fù)粲谩爸亍北硎荆W避則用“閃”，這樣的話下達(dá)指令也能更簡單迅速一些，或許還能用來打深淵。

也有內(nèi)行玩家表示，這個(gè)AI似乎有點(diǎn)“不大理解環(huán)境”，“下一步可以考慮加上SLAM”，“實(shí)現(xiàn)360度的全方位目標(biāo)檢測”。

up主表示，下一步要做“全自動(dòng)刷本，傳送，打怪，領(lǐng)獎(jiǎng)勵(lì)一條龍”，那似乎也還可以加一個(gè)自動(dòng)強(qiáng)化圣遺物功能，歪了就把AI格式化了。

原神區(qū)硬核整活up主還出過“提瓦特釣魚指南”

正如文摘菌所說，原神區(qū)從不缺整活兒，而這位up主“薛定諤の彩虹貓”應(yīng)該是其中最“硬核”的了。

從“AI自動(dòng)擺放迷宮”，到“AI自動(dòng)演奏”，原神出的每個(gè)小游戲可以說是應(yīng)AI盡AI了。

其中文摘菌也發(fā)現(xiàn)了“AI自動(dòng)釣魚”項(xiàng)目（好家伙原來也是你），只需要啟動(dòng)程序，提瓦特的魚全都能變成囊中之物。

原神自動(dòng)釣魚AI由兩部分模型組成：YOLOX和DQN：

YOLOX 用于魚的定位和類型的識(shí)別以及魚竿落點(diǎn)的定位；

DQN 用于自適應(yīng)控制釣魚過程的點(diǎn)擊，讓力度落在最佳區(qū)域內(nèi)。

此外，該項(xiàng)目還用到了遷移學(xué)習(xí)、半監(jiān)督學(xué)習(xí)來進(jìn)行訓(xùn)練。模型也包含了一些使用opencv等傳統(tǒng)數(shù)字圖像處理方法實(shí)現(xiàn)的不可學(xué)習(xí)部分。

項(xiàng)目地址：

https://github.com/7eu7d7/genshin_auto_fish

等3.0更新后還需要釣魚獲得的“咸魚弓”，就拜托你了！

那些把原神變成神奇寶貝的“神器”

作為一個(gè)嚴(yán)肅的人，文摘菌覺得也有必要給大家科普一下這次原神語音項(xiàng)目用到的幾個(gè)“神器”。

學(xué)習(xí)多粒度對齊的關(guān)鍵是優(yōu)化X-VLM：1)通過結(jié)合邊框回歸損失和IoU損失，在給定關(guān)聯(lián)文本的圖像中定位視覺概念；2)同時(shí)，通過對比損失、匹配損失和掩碼語言建模損失，將文本與視覺概念進(jìn)行多粒度對齊。

在微調(diào)和推理中，X-VLM可以利用學(xué)習(xí)到的多粒度對齊來執(zhí)行下游的V+L任務(wù)，而無需在輸入圖像中添加邊框注釋。

論文鏈接：

https://arxiv.org/abs/2111.08276

WeNet是一個(gè)面向生產(chǎn)的端到端語音識(shí)別工具包，在單個(gè)模型中，它引入了統(tǒng)一的兩次two-pass (U2) 框架和內(nèi)置運(yùn)行時(shí)來處理流式和非流式解碼模式。

就在今年7月初的時(shí)候，WeNet推出2.0版本，并在4個(gè)方面進(jìn)行了更新：

U2++：具有雙向注意力解碼器的統(tǒng)一雙通道框架，包括從右到左注意力解碼器的未來上下文信息，以提高共享編碼器的表示能力和重新評(píng)分階段的性能；

引入了基于n-gram的語言模型和基于WFST的解碼器，促進(jìn)了富文本數(shù)據(jù)在生產(chǎn)場景中的使用；

設(shè)計(jì)了統(tǒng)一的上下文偏置框架，該框架利用用戶特定的上下文為生產(chǎn)提供快速適應(yīng)能力，并在“有LM”和“無LM”兩大場景中提高ASR準(zhǔn)確性；

設(shè)計(jì)了一個(gè)統(tǒng)一的IO來支持大規(guī)模數(shù)據(jù)進(jìn)行有效的模型訓(xùn)練。

從結(jié)果上看，WeNet 2.0在各種語料庫上比原來的WeNet實(shí)現(xiàn)了高達(dá)10%的相對識(shí)別性能提升。

論文鏈接：https://arxiv.org/pdf/2203.15455.pdf

STARK是一種用于視覺跟蹤的時(shí)空變換網(wǎng)絡(luò)。基于由卷積主干、編解碼器轉(zhuǎn)換器和bounding box預(yù)測頭組成的baseline的基礎(chǔ)上，STARK做了3點(diǎn)改進(jìn)：

動(dòng)態(tài)更新模板：以中間幀作為動(dòng)態(tài)模板加入輸入中。動(dòng)態(tài)模板可捕獲外觀變化，提供額外時(shí)域信息；

score head：判斷當(dāng)前是否更新動(dòng)態(tài)模板；

訓(xùn)練策略改進(jìn)：將訓(xùn)練分為兩個(gè)階段1）除了score head外，用baseline的損失函數(shù)訓(xùn)練。確保所有搜索圖像包含目標(biāo)并讓模板擁有定位能力；2）用交叉熵只優(yōu)化score head，此時(shí)凍結(jié)其他參數(shù)，以此讓模型擁有定位和分類能力。