成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

專訪大象聲科汪德亮:利用深度學習解決「雞尾酒會問題 」

企業動態
隨著深度學習的興起,人工智能已經學會了下圍棋、玩視頻游戲、識別人臉、做翻譯、駕駛汽車……甚至在德州撲克這種非完美博弈中也開始嶄露頭角。但事實上,變化不止于此,在語音增強方面,深度學習技術正推動「雞尾酒會問題」的解決。

近些年,隨著深度學習的興起,人工智能已經學會了下圍棋、玩視頻游戲、識別人臉、做翻譯、駕駛汽車……甚至在德州撲克這種非完美博弈中也開始嶄露頭角。但事實上,變化不止于此,在語音增強方面,深度學習技術正推動「雞尾酒會問題」的解決。

俄亥俄州立大學終身教授汪德亮(DeLiang Wang)是全球第一個將深度學習應用于語音增強的科學家。

[[183096]]

汪德亮教授是俄亥俄州立大學感知與神經動力學實驗室的主任、校杰出學者、IEEE Fellow、頂級期刊 Neural Networks 主編,主要致力于機器感知和信號處理領域的研究,在聽視覺處理的神經計算研究方面開展了多項研究工作,并取得了很多重大成果。他建立了振蕩相關理論,在聽視覺分析中得到了廣泛應用,還開創性地提出了計算聽覺場景分析理論與算法,為解決聽覺領域中著名的「雞尾酒會問題」提供了全新的研究思路和方向。前段時間,他在 IEEE Spectrum 上發文詳細介紹了其團隊在語音增強深度學習技術上的研究進展。

汪德亮以聯合創始人兼首席科學家身份加入創業公司「大象聲科」,該公司于最近在深圳成立,專注于深度學習在語音增強領域的應用開發,通過聲音信號處理技術為企業提供全面的遠場語音增強方案。目前大象聲科涉及的領域包括會議轉錄、通訊、機器人、智能家居、虛擬現實、增強現實和混合現實等。

機器之心近日對汪德亮進行了一次專訪,以下是專訪內容的整理:

機器之心:您是計算聽覺場景分析(CASA/computational auditory scene analysis)的主要貢獻者之一,您能為我們簡單介紹一下 CASA 相關的技術以及您的研究團隊的工作嗎?

汪德亮:CASA 主要關注的領域是聲源分離。這里的聲源不單是指人的聲音,也可能是其它各種聲音(比如街上汽車和救護車的聲音)——這些都是聲源。聲源分離的目標就是將這些聲音分離開。針對這一問題的早期解決方式是通過統計的方法把聲音里面的統計特性提取出來; 計算聽覺場景分析則在很大程度上是對人的聽覺特性的模擬。

盡管現在人工智能已經很強大了,但在很多方面人的智能還是比機器智能強很多,尤其是在魯棒性方面。也就是說,對于有一個同樣答案的數據,如果其中有一些變化的話,對機器來說會是很大的困難,但對人來說卻沒有什么影響。CASA 這個領域很大程度上基于聽覺場景分析(ASA/auditory scene analysis)。ASA 是心理聽覺(psychoacoustics)的一個研究領域,這是心理學和聽覺的交叉領域。其中最有名的問題叫做「雞尾酒會問題(cocktail party problem)」;而人能夠解決雞尾酒會問題。

雞尾酒會問題是什么呢?這首先是由一位著名心理學家 Colin Cherry 提出的,他當時研究的是注意機制(attention mechanism),你能在很多的相關書籍中看到他的名字,在歷史上的地位非常顯赫。當時他在他那本 1957 的書《On Human Communication》里面說道:到目前為止,還沒有哪個機器算法能夠解決雞尾酒會問題。這之后雞尾酒會問題就為人所知了。要解決雞尾酒會問題,就需要能夠達到人類的聽覺性能水平。后來麥吉爾大學的教授 Albert Bregman 在 90 年代寫了一本巨著——《聽覺場景分析(Auditory Scene Analysis)》,這本書對計算領域的影響還是很大的。Bregman 本身是一位心理學家,不管計算問題。他思考的是:人是通過怎樣一種心理學機制和生物學機制來達到能夠解決雞尾酒會問題的性能的(當然到目前我們也還并不完全了解人是怎么做到的)。但是他在他的那本書里面提出了一個理論——聽覺場景分析理論。后來他這個理論被引入了計算領域,人們就思考怎么可以把人解決雞尾酒會問題的機制變成算法用到機器上,讓機器能夠達到解決雞尾酒會問題的性能,從而回答 Cherry 在很多年前最開始提出的那個挑戰。

CASA 這個領域又是怎么由來的呢?Bregman 的那本書是 1990 年發表的,而 CASA 領域最早的工作是 1985 年斯坦福大學的一篇博士論文;這項研究啟動的時間比那本書還早 (但也受到了 Bregman 影響)。計算聽覺場景分析這個領域就從那個時候開始形成。

圖注:一個街道上的聽覺場景,圖片來自 IEEE Spectrum

一個街道上的聽覺場景,圖片來自 IEEE Spectrum

對于我們這個團隊呢——我是從神經網絡這個領域切進去的,而他們是從電子電氣和信號處理那些領域切進去的——我們的進入方向不一樣。我進入的時間也比較早——從 90 年代初就進入了。我在早期的時候研究的是神經動力學,比如大腦里的振蕩器。后來我轉向了這個方向,在這個過程中 Bregman 的那本書對我的影響非常大。但那時候做這個領域研究的人還不多,我可以說是 CASA 這個領域的主要代表人物之一。后來 CASA 的影響力開始慢慢變大。

我們也第一次把 CASA 和后來的深度學習結合了起來,也就是說把雞尾酒會問題變成了一個機器學習問題。早期的時候,我是通過神經動力學來做聲源分離的。但現在我們把雞尾酒會問題變成了一個分類問題,源于我們稱之為「理想二值模(Ideal Binary Mask)」。這是我們實驗室提出的一個很重要的概念。我們就想:什么叫解決了雞尾酒會問題?也就是說,如果把一個聽覺信號在時間域和頻率域兩個維度(時頻二維)進行表示(類似于視覺信號的 x 軸和 y 軸兩個維度),你就可以把時頻這二維表示成一個二維矩陣,這個矩陣中的每一個元素稱為一個「時頻元(time-frequency unit)」。我們開始研究的就是怎么量化這個時頻元,后來我們發現這個量化只要二值就可以了——要么是 0 要么就是 1。這跟傳統的聲源處理方法是完全不一樣的。傳統的聲源處理要把信號分得很細。一個信號里面可能有很多的組成部分——一個部分屬于這個聲源,另一個部分屬于另一個聲源。我們的方法就不需要分那么細,就只需要分一次——要么屬于目標聲源,要么就是背景噪聲。這就是「二值」的意思。這樣我們就把 CASA 問題變成了一個監督學習(supervised learning)問題;相對地,早期方法則是無監督的(unsupervised)——也就是說把一個信號的權值算一算,而不需要教它。我們從理想二值模的角度考慮,就把它變成了一個分類問題。

分類是監督學習領域里面一個最基本的任務。我講課的時候常常這樣比喻:對于一個水果——它是橘子還是蘋果?二值就是這個意思——要么是橘子,要么就是蘋果。如果最開始你讓一個不認識它們的小孩去猜,猜錯了之后他媽媽會告訴他錯了,最多幾次之后這個小孩就能自然地知道該怎么區分了。機器學習也就是這樣,我在講課的時候常常將它比作是「Apple & Orange Problem」。當你把它變成了一個二值模問題之后,這就很自然地變成了一個「Apple & Orange Problem」,也就成了一個分類問題了,之后該怎么做就變得明朗了。

確定了問題之后,接下來就是確定用什么學習模型去做,這就是具體的技術問題了。

為什么我們實驗室在聲源分離這方面一直處于領先呢?因為是我們最早提出把聲源問題變成一個監督學習問題的。最早用過多層感知器(Multi-layer perceptron)、混合高斯模型(Gaussian Mixture Model)等等。因為這是一個全新的思路——原來是一個信號處理問題,現在變成了一個學習問題——而我們一直是領先在做,所以我們也一直處于領先的狀態。深度學習出來之后,我們也是最早把深度學習應用到這一領域的。當我們把它變成了一個深度學習問題之后,剩下的就是具體的技術問題了。將來(也許五年之后),也許深度神經網絡又比不上一種新出現的學習模型了。我們會照樣進行研究,因為我們已經有了概念上的突破。學習模型之間性能當然是有差別的,所以采用更好的模型也是理所當然。而將這個問題變成一個學習問題才是更大的概念上的突破。

所以簡單總結一下,CASA 就是基于人的聽覺原理來做聲源分離,我們實驗室的最大貢獻是第一次將這個問題變成了一個監督學習問題。

機器之心:您前段時間在 IEEE Spectrum 上面發表了一篇用深度學習變革助聽器的文章《Deep Learning Reinvents the Hearing Aid》,談了您對聽覺增強技術的研究工作,尤其是聲音分離技術。請您簡單介紹一下深度學習是如何將噪聲和我們想要的聲音分離開的。其中最大的難點是什么?

汪德亮:一旦把它變成了一個監督學習問題之后,我們就希望學習機的分類結果和理想二值模的分類是一樣的。理想二值模是「理想的」,是在聲音沒有重疊之前計算出來的,就是說不管噪聲比目標聲音強多少倍,它都能將目標聲音分離出來。盡管是二值的,但是功效非常之大。

深度學習聲音分離技術的流程,圖片來自 IEEE Spectrum

深度學習聲音分離技術的流程,圖片來自 IEEE Spectrum

其中的難點就在怎么通過學習的方式來不斷地提高精度,讓它不斷接近理想二值模。其中最大的難點?我想所有的監督學習都一樣,就是說:我們可以怎樣在數據有限的條件下學習到足夠好的模型,并且可以推廣到新的場景。我們談的計算聽覺場景分析就是要在所有的場景中都達到能夠實用的要求——因為也許它大部分場景都見過,但有的場景卻從沒碰到過。這就類似于早期時候的自動駕駛汽車在雪地里沒法行駛,因為它從來沒有在雪地里行駛的數據,之后有了這方面的訓練數據之后,自動駕駛汽車就能應對雪地了。這就是一個數據問題。而現在這個難點我們已經走過了,「突破」就是這個意思——就是說以前人們百思不得其解的東西,現在已經有了方向,接下來就開始加速發展了。

機器之心:就是說現在技術已經有了,現在最大的難點是在數據上?

汪德亮:對,數據是個問題,還有就是訓練過程。目前深度學習代表著最現代的一種方法,但我們還不清楚它究竟能走多遠、能不能最終完全解決雞尾酒會問題。不過我是持樂觀態度的。因為我們也可以從其它領域看到深度學習的好處,像是汽車駕駛、機器翻譯、圖像識別,甚至還有可以譜曲的模型了。聲源分離問題也可以被看作是這個大潮流的一部分。

機器之心:剛才您提到早期的方法是無監督的,而我們現在用的機器學習/深度學習方法是有監督的,但也有一些學者認為未來的發展方向是無監督的學習,因為這樣可以實現更強的自主智能?您怎么看?

汪德亮:無監督或有監督只是具體的方法,有的無監督方法也可以變成有監督的方法。學習大概可以分為三類:無監督學習、有監督學習和強化學習。最近下圍棋的程序就用到了強化學習,但基本上可以把它看作是有監督學習,但是它的學習信號非常少。學習究竟具體使用了什么算法我覺得倒不是很重要,重要的是我們的目標要非常明確——就是要解決雞尾酒會問題。

雞尾酒會問題的答案有兩種定義方式,一種是要讓算法在現實場景中語音識別上達到人類的水平,另一種是算法能夠幫助有聽覺障礙的人能夠像正常人一樣在現實場景中聽懂語音。視力不好的人一般戴上眼鏡問題就解決了,助聽器則不是這么回事,遠未達到眼鏡的水平。所以有監督還是無監督都會有,這并不重要,重要的是要能夠達到解決雞尾酒會問題的目標。

機器之心:在這篇文章最后,您也談到了這項技術正在進行商業化的過程中,那么我們大概什么時候能在市面上見到深度學習助聽器產品?

汪德亮:這個還需要一點時間。你想要完全采納這個技術,對現有的技術就是一種顛覆。傳統的方法是通過信號處理的方式把信號分成各個頻段,然后對這些頻段的信息進行分析,看應該對這些頻段進行放大還是縮小;而現在我們是通過學習的方式來做。而要把它放進實際的助聽器中,有實時性方面的問題,需要把器件做得足夠小,而且還需要助聽器廠商的配合;所以我覺得正式上市還需要幾年的時間。

機器之心:那么你們的技術現在在時延方面的表現如何?

汪德亮:我們目前還沒有很關注時延方面的問題。因為我們覺得在性能上還需要提高,要讓這個技術在各種場景下都能夠行之有效。現在只能做到在一些場景或很多場景下有效,但還不能做到在所有的場景都有效。所以時延的問題我們還沒有太關注,但將來做商業規劃的時候時延就非常重要了。

當然反過來講,神經網絡的好處在于能把整個任務分成兩個部分。一個部分是訓練,這個部分可以不用在乎用什么來做訓練,CPU 或 GPU 都可以,訓練多長時間都沒關系。比如說谷歌的 ASR 可以訓練六個月時間,但運行時的時延就很短了,可以達到幾秒鐘。這個概念和傳統的方法有區別,傳統的方法是把這兩個過程放到一起。神經網絡的方法把它分成訓練過程和使用過程,訓練完了之后可以得到一個單獨的實用模型;只要這個模型不是特別大,使用時其實用不著很大的計算量。慢的地方主要還是在訓練階段。另外,訓練完之后的模型還可以進一步簡化。

機器之心:如果噪聲的音量遠比我們想要的聲音的音量大,模型也可以正確的識別嗎?

汪德亮:可以。我們的 demo 現在已經可以做到 -8 分貝了。0 分貝就是說兩個聲音一樣強,-8 分貝就是說噪音比目標聲音高 8 個分貝。在這種比例下,你幾乎聽不到人說話的聲音,但模型還是能分離和識別。因為模型是看它的特征,在訓練過程中它已經學會怎么做了,在處理的時候它不需要管噪音有多大,它只要發現聲音中有特征和訓練時學習的特征接近,它就能將目標音分離出來。所以這倒不是一個大問題。

機器之心:我們知道深度學習對計算性能和在功耗上的要求還是比較高的,而老人佩戴的助聽器這樣的便攜式設備基本上無法提供這樣的性能或功率支持,這個問題有可能通過什么方法來解決?

汪德亮:這個不難解決,就像我們剛才講的,深度學習的訓練和使用可以分開,助聽器里面可以只用訓練好的模型?,F在比較好的助聽器是幾千美元一只,這些助聽器也是需要進行「訓練」的,首先是試戴,之后還會發現這個頻段需要調或那個頻段需要調,需要拿到賣助聽器的地方去調節。訓練本身就是這樣一個調節的過程。功耗、大規模數據、訓練時間這些成本都主要體現在訓練過程中,訓練完成之后這些問題就不存在了。

機器之心:您的研究經歷中也有關于圖像分割(image segmentation)的成果,圖像分割和語音分離(speech segregation)在技術上有哪些相同點和不同點?

汪德亮:最大的不同點是:聲音信號是疊加的,即多個聲音信號加在一起;而視覺信號則不是相加的,而是遮擋(occlusion)的,即前面的物體把后面的物體擋住。

人的五官很有意思。我一直在研究人的感知覺。人為什么有五官呢?我們知道外界世界是同一個物理世界,而五官則是通過物體的五種不同類型的屬性來對外界進行分析,比如視覺上是通過亮度、顏色等等特征,而聽覺上則是通過聲音的振幅、頻率之類的特征。聽覺有一些視覺做不到的地方,比如你就算睡著了,你的耳朵照樣還在觀察四方,你也可以聽見隔壁或房間外面的聲音,而通過視覺的話你就會被墻遮擋。當然在光線比較好的地方,視覺的精度要比聽覺的精度高。但是,總的來說它們是一種互補的關系。

前面我們也講了,還有一個不同之處是:聲音是時間維和頻率維兩個維度,圖像則是橫軸和縱軸兩個維度。圖像的兩個維度基本是對稱的,而聲音的兩個維度則很不同。我們還可以給圖像加第三維的深度信息。聲音也可以加深度信息。

而它們之間的共同之處也非常多。理想二值模就是把這個問題變成二值的,就像前面的東西會把后面的東西給擋住一樣,強的聲音把弱的聲音給掩蔽掉。其中的概念在某種程度上受到了之前的在視覺上的工作的影響。在視覺上做 segmentation 的時候,我們可以很自然地根據像素歸屬于某個物體很容易地將其分開——要么屬于該物體,要么就不屬于。這個二值概念對我們提出聽覺上的理想二值模是有啟發的。

所以它們既有共同之處,也有不同之處。

機器之心:有可能使用同一個模型同時完成這兩種功能嗎?

汪德亮:現在有一個叫做 audiovisual 的領域,它既有「視」的通道,也有「聽」的通道。我覺得它們之間的互補性大于它們之間的重疊性,也就是說當我們把 audiovisual 做在一起的時候,它們之間會有一些重疊的部分;也就是說視覺很不錯、聽覺也很不錯,兩者可以互相支持。但很多情況下,只能靠視覺模型、或聽覺模型。當然我們也確實可以把它們做進同一個模型。

機器之心:這和遷移學習有什么聯系嗎?

汪德亮:遷移不太一樣。遷移(transfer)是把在一個方面做得已經很不錯的模型遷移到類似的一個任務上去,而 audiovisual 是把兩種模型合在一起做。也就是說,對于一個物體(object),audiovisual 并不把它作為一個視覺的物體,也不把它作為一個聽覺的物體,而是一個視覺和聽覺整合的物體,也就是把這個物體的信息通過兩個不同的渠道進行獲取,而這兩個渠道的信息有互補,效果會比僅使用一個渠道的要好。

而遷移學習是把已經訓練好的模型進行少許改進后應用到類似的任務上,這樣讓我們可以在新的任務不用完全從頭開始訓練。

機器之心:2016 年是深度學習/神經網絡大突破的一年,翻譯、語音識別等等許多領域都取得了里程碑成果,您能預測一下 2017 年這一領域的發展嗎?

汪德亮:這是一個很大的問題。大數據量、大計算量是現在的大潮流?,F在人工智能基本上已經沖擊到各個領域了,包括前面講的語音增強,語音識別、自然語言理解、視覺、機器人、自動駕駛等等。其中關鍵的問題是我們能不能把一個問題變成監督學習的問題。我 16 年 9 月份在做一個大會報告后有不少人問我:之前很多年我們都沒有這么考慮過,現在應該怎么辦?我就說:其實也不難,上一門神經網絡的課就行了。而最關鍵的還是要把你的問題變成一個監督學習的問題。這和過去是一種完全不同的思路。我們現在看到很多很有說服力的成功例子,這將吸引大量的人將原來用傳統方法解決的問題變成學習問題來做。

對于 17 年的深度學習領域,我覺得首先毫無疑問它將滲透到更多的領域里面并且推進這些領域的發展,而且我相信會是大幅度的推進。

另外我覺得在神經網絡研究本身上也會有進展。因為神經網絡/學習模型可以說是一種工具,其本身也還是有很多工作要做的。深度學習開始出來的時候,人們最看好的是應用領域??雌饋砗孟駴]有什么理論上的突破。我覺得這種說法有一點太挑剔了。我認為今后網絡體系的發展會越來越多樣化,會有新的模型、新的架構出來。除了多樣化之外,網絡還可能會更加細分,也就是說對于不同的任務,有效網絡的結構可能會不一樣,這和現在網絡結構都大同小異的情況不一樣——以前全是單向網絡(feedforward network),后來加入了循環網絡(recurrent network)、LSTM 等等,一個潮流推動一個潮流。最近大家都一窩蜂地去做 LSTM。我認為以后不同的任務和任務的不同特征也會反映到網絡的結構上。比如說,大家都是循環網絡,但是做語音的循環網絡和做視覺的循環網絡應該不太一樣。我認為隨著做的人越來越多,其結構也會不斷細化,最后每一個領域(domain)可能有自己特定結構的網絡。我認為 2017 年這一趨勢還將繼續,這一領域還將繼續發展。

【本文是51CTO專欄機構機器之心的原創文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2015-04-23 15:34:15

RSA大會RSA2015安全大會

2023-03-22 08:00:00

2011-09-13 09:46:10

創業速度隱蔽

2011-04-20 16:58:33

java排序

2011-11-04 17:43:13

Web

2014-09-04 10:51:13

2017-09-23 22:07:24

深度學習N 體問題GAN

2018-09-04 08:00:00

人工智能深度學習神經網絡

2017-09-28 10:40:10

深度學習多體問題多代理系統

2023-12-12 08:31:44

智能運維場景

2013-04-01 14:05:25

SDN汪軍網絡架構

2023-08-17 14:22:17

深度學習機器學習

2017-12-05 15:32:44

深度學習語音識別

2014-03-05 18:57:31

2018-10-15 10:38:14

UCloud虛擬網絡SDN

2009-06-10 08:45:31

LinuxWhile文件等待

2012-08-28 11:03:12

Evernote印象筆記

2016-08-12 09:28:52

APIPythonLinux

2017-09-20 18:20:24

深度學習圖像處理心臟病

2018-05-22 15:33:27

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品在线一区 | 瑞克和莫蒂第五季在线观看 | 久久久久久精 | 欧美激情国产精品 | 99久久久久久99国产精品免 | 久久久久久色 | 久久免费视频1 | 欧美国产日韩一区二区三区 | 欧美激情久久久 | 久久亚洲春色中文字幕久久久 | 在线日韩视频 | 日韩在线免费观看视频 | 成年人网站在线观看视频 | 97综合在线 | 色视频www在线播放国产人成 | 久久久久网站 | 午夜免费av| 中文字幕在线中文 | 中文字幕免费在线 | 亚州影院 | 综合久久av| 黄色福利 | av天天干| 日韩免费 | av特级毛片 | 久久精品国产一区二区 | 色婷婷综合成人av | 国产黄色大片网站 | 国产剧情一区 | 久久久久91 | 亚洲精品一区二区网址 | 在线观看电影av | 日本一区二区三区四区 | 精品三区 | 成人精品视频99在线观看免费 | 日韩免费一区二区 | 91精品国产欧美一区二区成人 | 日本三级日产三级国产三级 | 免费在线观看一区二区 | 国产精品美女久久久久久久久久久 | 亚洲电影一区二区三区 |