機器學習已成谷歌第三大技術 開源有助創業者
五年后重新談論搜索之后的技術時,機器學習成為谷歌 (微博)接下來產品必備的技能,并且谷歌已經宣布將開放這一能力,原因是其需要大量的數據使得機器更加智能。
機器學習不止是用于優化減少垃圾郵件以及YouTube的視頻推薦,如今最能代表這項技術的產品就是Google Photos。發布6個月后,用戶已經上傳了500億照片。這樣大量的數據以使得谷歌可以自動幫助用戶組織和管理圖片,而且更加人性化的搜索圖片和分享。
周二,Google Photos產品經理Chris Perry在日本向媒體展示了Google Photos是如何識別出十幾年前父子在峽谷的合影,而這張照片并未被人工添加任何標簽。與傳統照片管理依靠特定標簽不同,谷歌雖然也同樣會根據關鍵詞進行搜索,但是對于圖片的識別技術已經發生了根本的改變。
Chris Perry展示了如何利用神經網絡識別一張圖片,而不是使用信息點匹配的方式,原因是后者只能識別靜物。這項被稱為“神經網絡”的項目包括26個層次的識別,而每個層次識別的內容并不相同。簡單來說,谷歌可以從像素、線條和形狀分別進行對圖片的識別,最終告訴用戶這是什么。
不過,這里存在著一個難以突破的困境。機器可以通過已經上傳的多張圖片識別出他們相同的特點,并知道這是同一類事務,但無法將這些事務與人的認知相聯系。舉個例子,機器識別一張貓的照片,并知道這是一只喵喵叫的貓,但是它卻無法告訴用戶這是一只“貓”。
面對大千世界的海量數據,在實際中是無法有專門的人對每個事物進行標定。推特和Pinterest通過五年的時間實現了這個方式,而Instagram用了兩年半的時間。
然而,谷歌的做法就是利用每一個人的搜索,以此代替專門的人工添加,這是自7、8年前語音團隊開始切入機器學習后開始的。2、3年前谷歌開始大規模投資這項技術,
如今,谷歌向外界開放其機器學習系統TensorFlow,Alphabet執行主席Eric Schmidt表示,這將不斷擴大網絡,組成更大的知識基礎,獲得更多回饋,進而有更多發現。
當你看到被白雪遮蓋了部分的路標,你可以大致猜測出這個圖片是什么以及背后的含義。谷歌認為,機器也應該可以同樣做到。為此,谷歌將機器學習引入旗下的產品。谷歌高級研究科學家Greg Corrado告訴騰訊科技,“機器學習已成為谷歌搜索第三大重要技術”。
在Greg Corrado看來,人工智能是機器響應環境,而機器學習是可以根據經驗進行學習。谷歌真正感興趣的是這兩者的交集部分。“我們預測機器可以預測不斷重復同一工作”,然后使其對工作處理的更好。
機器學習的基礎實際上包括三個重要的部分。首先,需要找到“Model(模型)”,這就是在輸入和輸出中間的一個轉換公式,也就是“機器學習”中的“機器”;其次,需要為這個公式找到固定的“參數”,這是需要機器進行學習,并不斷修正;最后,需要一個“學習”的軟件,知道如何調整參數、降低錯誤。
不過,對機器的調整速度非常緩慢,這需要機器對至少上千萬,甚至達到10億G的案例進行學習。這也是,機器學習與人類學習的最大差別,前者需要大量數據作為“助推器”。
盡管并未對外公布是否該技術引入谷歌眼鏡等硬件產品,但谷歌母公司Alphabet執行主席Eric Schmidt證實,目前有一百多個團隊在用機器學習技術,其中包括Youtube核谷歌搜索等。
谷歌披露,機器學習提高了對Gmail垃圾郵件的識別率,以及對語音轉換文字的識別率提高了20%。
谷歌在上周曾發布了自動回復郵件的功能。當用戶收到新的郵件后,深度學習系統可以判斷是否需要簡單地回復。如果需要回復,系統會進入第二個判斷,即如何對郵件進行回復。這樣的判斷與識別垃圾郵件類似。
事實上,機器學習的未來并不只是谷歌搜索所引發的業務。如果計算機視覺比人更好,那么就應該讓機器來開車;機器對X光片的識別或許比人能夠的出更精準的判斷,而對時間順序發生事情的判斷對醫療診斷異常重要。
Eric Schmidt表示,如果選擇創業,會進入醫療領域,因為這個領域的規模和機會。“我預測,會有很多的醫療機構可以利用我們的技術做正確的事情”。
對于目前的開放策略,Greg Corrado稱,機器學習需要鼓勵大家從不同的角度研究,即使在谷歌內部也有不同的方法,而學術界和不同的企業之間有很大的差異,谷歌也正在與 Facebook 和 百度 合作。而此次開源更可以為創業公司、學生,以及粉絲愛好者打開機器學習的入口。