是什么讓深度學習能夠深入世界并改變世界?
還記得孩提時代,你是如何開始學習辨認水果、動物、汽車以及其他事物的嗎?
多年來,我們的大腦接受訓練,識別這些圖像,然后將它們進一步劃分為蘋果、桔子、香蕉、貓、狗和馬。除了學習辨認食物和動物,我們還學習了品牌和它們的區別:豐田、本田、寶馬等等。
受人類大腦的生物學習過程的啟發,科學家們研究出了人工神經網絡(ANN)。“深度學習”指的是由許多層網絡層組成的人工神經網絡。它是機器學習中發展最快的領域。它使用包括多層網絡層的深層神經網絡(DNN)來學習表征和抽象,從而理解圖像、聲音和文本等數據。
那么深度神經網絡到底深到什么程度呢?
為什么深度學習被稱為“深度”學習?這是因為這些ANN網絡的結構。幾十年前,神經網絡的深度只有兩層,這是因為計算能力不足,無法構建更大的網絡。而現在,10層以上或者100層以上的神經網絡都是存在的。
在深度學習中使用多層網絡層,機器現在有能力去觀察、學習和應對復雜的情況,有時甚至比人類做的更好。
通常情況下,數據科學家會花大量的時間在數據的準備過程上,特征提取或變量選擇(選擇對預測分析有用的變量)。深度學習能自動完成這項工作,讓生活更輕松。
為了促進深度學習的發展,許多科技公司開放了他們的深度學習研究資源,比如谷歌的Tensorflow和Facebook的開源模塊Torch。亞馬遜在GitHub上發布了DSSTNE,而微軟也在GitHub上發布了其開源深度學習工具包CNTK。
因此,今天我們看到了很多關于深度學習的例子,包括:
谷歌翻譯使用深度學習和圖像識別來翻譯語音和書面語言
CamFind使用移動視覺搜索技術來告訴你圖片中的內容,你只需拍下物體的圖片,無需打字,CamFind提供了快速、準確的結果。
目前,Siri、Cortana、Alexa和Google等所有的智能語音助手都在使用深度學習來進行自然語言處理和語音識別。
亞馬遜、Netflix和Spotify在他們的推薦引擎中也使用了深度學習,機器為你推薦為下一部***影片、電影或音樂。
谷歌 PlaNet 可以查看照片,并告訴用戶照片拍攝的地點。
DCGAN 用于增強和補充人臉圖像。
DeepStereo:將街景拍攝的靜態圖像轉換為3D空間,通過計算每個像素的深度和顏色,可以從不同的角度顯示出不同的視角。
DeepMind的 WaveNet 能夠模仿人類聲音來生成語音,且生成的語音比現有的文本語音轉換系統更自然。
Paypal 正在利用深度學習來防止支付詐騙。
到目前為止,深度學習幫助了圖像分類、語言翻譯、語音識別,并且可以用來解決模式識別問題。毫無疑問,這是一種顛覆性的數字技術,越來越多的公司正在使用這種技術來創造新的商業模式。