成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

KDD 2022:火山語音提出“無中生有式”對抗語音攻擊的創新方案

新聞
伴隨機器學習在語音識別上的技術突破,形式多樣的語音助手已成為人們日常生活中必不可少的工具,尤其在一些特定場景下,語音助手可以通過識別語義信息幫助人們完成例如購物、轉賬、繳費、郵件處理等簡單動作,便利正逐漸滲透到生活的方方面面。

日前,被譽為數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議ACM SIGKDD(國際數據挖掘與知識發現大會,KDD)正于美國華盛頓召開。會上,火山語音多篇論文被KDD 2022 Research track接收并發表,同時創新性地提出基于語音合成來有效攻擊語音識別系統(Audio Adversarial Attack)的新技術路徑,用于高效并準確發現語音安全領域的新漏洞。

伴隨機器學習在語音識別上的技術突破,形式多樣的語音助手已成為人們日常生活中必不可少的工具,尤其在一些特定場景下,語音助手可以通過識別語義信息幫助人們完成例如購物、轉賬、繳費、郵件處理等簡單動作,便利正逐漸滲透到生活的方方面面。

但據近些年的研究表明:由于神經網絡的冗余特性可以讓攻擊者在輸入中加入人類無法識別的微小擾動,從而誤導原本訓練好的模型,甚至可以給出攻擊者想要獲得的輸出結果,著實有些驚悚,例如:

明明聽上去是:Send a greeting email to Tom?

但經過語音識別系統之后的輸出竟然是“Transfer one million dollars to Jerry.”

人們不禁靈魂發問語音識別究竟還能否被信任?

不可否認,這種安全隱患正逐漸成為限制語音識別系統大規模應用的關鍵因素之一,所以研究如何設計高效的攻擊方案發現語音識別系統的弱點和漏洞,進而緩解消除上述語音安全隱患,已成為學術界和工業界共同關注的熱點問題。

基于此,火山語音經文獻調研發現:現有的語音攻擊主要源于一種良性語音依賴假設(上述圖a),即Audio dependent attack,這種假設要求對抗語音樣本(Adversarial audio)是基于已有的干凈語音(Benign audio)上添加擾動產生。但在現實場景中,這種干凈語音有可能不存在(比方說,說話人可能根本沒有發出聲音)或者無法包含特定的語義信息(例如,說話人在交談中沒有說出某句話),如果遭遇上述情況,現有的方案將難以被應用:對已有干凈語音的依賴性極大限制了語音攻擊的廣泛性,造成了判斷的不準確。

對此火山語音團隊提出了一種全新的“無中生有式”對抗語音攻擊方案(上述圖b),所謂“無中生有”是指不再依賴已有的一段干凈語音,而是采用語音合成模型直接生成包含特定語義信息的語音對抗樣本,避免對干凈語音(Benign audio)的依賴,改變過去通過“已有”來判斷的思路,進而降低安全漏洞的誤判率。目前該方案的介紹論文(https://dl.acm.org/doi/10.1145/3534678.3539268)已被KDD 2022接收并發表。

方法概述

如圖所示,火山語音團隊提出的Speech Synthesising Attack (SSA),可以合成文首所示包含“Send a greeting email to Tom”的語音,同時欺騙ASR系統翻譯為欺騙目標“Transfer one million dollars to Jerry”。如果要實現這樣一個挑戰性任務,兩個重要的條件需要同時被考慮到,分別是:ASR系統需要最終轉錄成任意設定的欺騙目標,以及合成語音需要足夠自然,讓人類無法輕易覺察到該語音為對抗攻擊樣本。

為此團隊引入基于Conditional Variational Auto-Encoder的VITS模型作為語音合成模塊,通過優化Audio Style Vector z從而達成以上兩個重要前提,具體的loss如公式所示:

為達成條件一,團隊使用Connectionist Temporal Classification (CTC) loss來迫使ASR系統輸出設定的目標文本(target text)。為達成條件二,考慮到VITS模型訓練時z服從標準高斯分布,作者對z做出如下約束:

為了使對抗語音樣本合成更加高效,火山語音團隊還提出了一種Adaptive Sign Gradient Descent的優化策略,整體算法流程如下圖所示:

實驗結果分析

火山語音團隊在Audio Mnist、CommonVoice以及LibriSpeech三個數據集上分別對算法進行了驗證。實驗結果(如下表所示)顯示:相比之前的語音對抗攻擊算法,新范式在攻擊成功率(Success rate) 上表現出顯著優勢,已經達到過去方法的兩倍左右。

同時團隊還分析了此種辦法帶來優勢的原因,圖b為傳統方法在一段干凈語音(圖a)上加載噪聲的攻擊方式??梢钥闯?,噪聲的加噪受限于原始語音波形,但基于SSA產生的語音對抗樣本,雖然包含的語義信息與圖a&b一致,但對比之下波形差異很大,這說明SSA在產生對抗語音樣本時相較于已有方法,能夠更加直觀發現安全漏洞不易被誤導,預期將會成為一種發現語音識別系統安全漏洞的方案被廣泛采用。

除上述論文外,火山語音團隊推出的另外一篇論文“重要性優先的策略蒸餾”(Importance Prioritized Policy Distillation)也成功被KDD 2022接收并發表。

論文地址: https://dl.acm.org/doi/10.1145/3534678.3539266

該論文主要解決了強化學習模型蒸餾過程中Data bias問題。在傳統的策略蒸餾(Policy distillation)方法中,每一個Frame(State-Action pair, 狀態&動作組合)對于學生策略(Student policy)的重要性在訓練中是被假設為均勻的。然而在強化學習任務中,每個Frame上的Action選擇實際上是對應著不一樣的獎勵(Reward)。

為了自適應的根據Reward收益進行Policy Distillation訓練,火山語音團隊提出了一種基于香農熵(Shannon Entropy)對強化學習任務Frame importance進行估計的方法,并基于Atari游戲任務驗證了該方法在策略蒸餾以及壓縮(Policy compression)任務上的有效性。這種基于重要性優先的策略蒸餾方法將會更好地服務于強化學習模型在部署時的模型壓縮任務,從而助力在各個強化學習場景下的實際落地。

火山語音,作為字節跳動 AI Lab Speech & Audio 智能語音與音頻團隊,長期以來面向字節跳動內部各業務線以及火山引擎ToB行業與創新場景,提供全球領先的語音AI技術能力以及卓越的全棧語音產品解決方案。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,多篇論文入選各類AI 頂級會議,技術能力已成功應用到抖音、剪映、番茄小說等多款產品上,并通過火山引擎開放給外部企業。


責任編輯:黃顯東
相關推薦

2015-04-02 09:22:51

EMM深信服

2018-11-16 10:10:09

2015-06-26 13:50:10

Informatica大數據

2024-05-20 08:08:00

分布式系統緩存C#

2010-04-06 10:01:43

2014-03-23 17:59:01

ICT媒體華為

2023-03-03 16:41:24

銳捷

2019-04-15 14:06:12

2013-02-06 18:50:37

華為信息化解決方案

2013-05-15 12:20:30

NETGEAR智能家庭

2025-03-07 09:24:00

2024-12-02 09:57:43

GormScopesClauses

2025-04-29 08:05:00

JavaScript錯誤處理開發

2013-03-20 09:33:32

通信技術解決方案寬帶業務

2009-12-10 16:15:02

摩托羅拉方案效率
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩插插 | 99久久精品免费看国产小宝寻花 | 中文字幕日韩欧美 | 国产99久久精品一区二区永久免费 | 亚洲国产精品第一区二区 | 欧美成人免费在线视频 | 99re在线视频 | 亚洲一区二区三区视频 | 色综合久久久久 | 久久久久国产精品一区二区 | 欧美成人精品在线 | 亚洲欧洲中文 | 日韩国产在线 | 国产亚洲一区二区精品 | 国产精品视频在线观看 | 在线观看免费福利 | 国产麻豆乱码精品一区二区三区 | 美国av毛片| 久久福利电影 | 九九免费 | 国产成人一区二区三区久久久 | 欧美电影网 | 五月天综合影院 | 精品国产91乱码一区二区三区 | 蜜桃视频一区二区三区 | 亚洲精品久久久久中文字幕欢迎你 | 午夜av毛片| 国产精品久久九九 | 国产精品久久久久久久免费观看 | 中文字幕国产精品 | 亚洲女人天堂成人av在线 | 欧美一级黄视频 | 国产精品久久久亚洲 | 成年人在线观看 | 国产精品射 | 超碰3| 日美女逼逼 | 动漫www.被爆羞羞av44 | 日本视频一区二区三区 | 成年无码av片在线 | 久热精品在线观看视频 |