Google:更多的數據勝過更好的算法!
Google發布的新研究論文詳述了語音識別程序幕后的數據科學,包含了語音搜索和向YouTube視頻中添加文字說明和標簽。雖然其中的算法多數人都無法掌握,但是思想卻是完全可以理解的。論文的出發點在于人們對大數據衷的原因及為工作選擇合適數據集的重要性。
Google自始至終都認為數據是越多越好,用產品研發總監Peter Norvig的話就是:更多的數據勝過更好的算法。盡管Norvig的評價中還有一些對算法的吹毛求疵,但是顯然更多的人接受了這篇論文并在大數據領域引起了熱烈的討論。模型用來學習的數據越多,模型就會變的越精確 —— 即使開始時不是最***的。
言歸正傳,下面我們來看一下更多的數據在語音識別系統的改善中所起到的作用。研究人員發現數據集和大型語言模型(維基百科對Google 研發中涉及到的n-gram模型的解釋)可以降低在收到***個單詞時推測下一個單詞時的錯誤率。比如Google高級研究員在10月31日關于這項研究的博客中給出的例子:一個好的模型在前兩個單詞是“New York”時推測下一個詞時會更多的選擇“pizza”而不是“granola”。在做語音搜索時,他的團隊發現:模型的大小每增加兩個數量級就可以減少10%的關系詞錯誤率。
這里的關鍵在于什么類型的數據集對你的模型有益,不管它們是什么。對于搜索的測試,Google使用google.com匿名查詢的隨機樣本中抽取沒有出現拼寫校正的230個單詞。因為人們講話和寫作不同于普通的打字搜索,所以YouTube模型的數據都是來自新聞報道的錄音和大型網站上的抓取。他們寫道:“單純的就語言建模而言,各種各樣的話題和口語風格讓大型網站抓取成為語言模型建立的很好選擇。”
雖然這個研究并不一定具有突破性,但是卻道出了大數據和數據科學為什么會在今天引起這么多的注意。隨著消費者需求更智能的應用程序和更無縫的用戶體驗,每一塊數據的選擇及每一塊數據對應分析方案無疑都是重中之重!