深度學習如何將個性化引入互聯網
譯文深度學習屬于機器學習范疇下的一個子集,其利用多種方法以實現人工智能研究當中的一大核心目標:讓計算機對我們的世界進行充分建模,從而展現我們理解當中的“智能”。
從基本概念角度出發,深度學習方法往往具備非常基礎的共通特征。深度學習算法通過多個處理層對原始數據進行解釋。其中每個處理層皆將前一處理層的輸出結果作為輸入結果,同時創建出更為抽象的表達。因此,只要將更多數據饋送至正確的算法當中,則算法通常能夠給出更多與相關規則及特征緊密關聯的推理與情景,并據此在處理新的類似情況時作為參考。
谷歌翻譯提供的類似于科幻小說般的Word Lens功能正是一套深度學習算法支持下的產物。而Deep Mind最近廣受關注之AlphaGo亦憑借著深度學習的強大能力橫掃圍棋界——不過具體來講,AlphaGo的取勝算法并不屬于純粹的神經網絡,而屬于一套將深度加強學習與樹搜索這一經典AI基礎技術相結合的產物。
深度學習屬于解決計算問題的一種充分方法,主要面向各類太過復雜而無法憑借圖像分類或者自然語言處理等簡單算法直接解決的任務。然而,目前深度學習的實際用途仍然非常有限。當下利用機器學習技術的行業大多未能充分發揮深度學習以及相關方法的發展潛能,而僅僅是借用了其中的一部分最佳實踐。舉例來說,關注近期深度學習變革動態的朋友可以已經聽說,谷歌公司前任AI負責人John Giannandrea已經接管了該公司的搜索部門(這甚至可能徹底顛覆整個SEO領域)。
深度學習技術支持下的推薦系統——個性化的未來解決方案
可以肯定的是,深度學習亦將推動個性化領域迎來下一輪重大的跨越式發展。個性化對于電子商務企業、發行商以及營銷機構而言皆已成為一大核心領域,因為事實證明其確實有能力提升銷售效果、增加參與度并改善整體用戶體驗。如果說數據是個性化的燃料,那么推薦系統就是其出力引擎。此類算法的進步對于這一領域以及平臺用戶的在線體驗必將產生深遠的影響。
在這里,我們將著眼于三個具體領域,探討深度學習如何對現有推薦系統作出補充及改進。
將內容納入推薦流程
條目到條目推薦屬于推薦系統中的一種標準化處理方式。這意味著當電子商務網站或者發行商網站作出推薦時,其推薦的結果源自用戶此前曾經查看的其它類似條目。解決此類需求的一種典型方法為基于元數據的業務邏輯(另一種典型數據源為用戶交互,即Amazon上提供的“買過此商品的用戶還買了……”)。然而,元數據質量低下成為制約其實際效果的常見瓶頸,這主要源于元數據存在價值缺失或者缺少系統分配。在這種情況下,即使擁有完美的元標簽,這樣的數據也僅能夠表達實際條目之間的間接性關聯。而在深度學習的幫助之下,我們則可將內容(包括圖像、視頻與文本)等實際內容屬性納入推薦流程。利用深度學習,條目到條目間的關系將匹配算法對于產品更為全面的理解,且更少依賴于手動標記以及廣泛的交互歷史記錄。
在這方面,Spotify的推薦系統相當值得肯定。該公司在2014年的研究當中將深度學習引入推薦系統,旨在提供更為多元的歌曲推薦,同時幫助用戶創造出經過改進的個性化體驗。這項音樂流服務以往曾在其推薦系統中采用協同過濾方法。但Spotify公司實習員工Sander Dieleman這位博士生卻將此視為當前功能中的最大缺陷,因為這種高度依賴于數據的作法將不可避免地錯失某些人氣不高、剛剛嶄露頭角的藝術家及其不為大眾所知的歌曲。因此,Dieleman本人采用一種深度學習算法從50萬首歌曲當中各自挑選時長30秒的摘錄,并對音樂本身進行分析。這種連續多層學習網絡能夠掌握更為復雜且恒定的歌曲特征,其基本思路與圖像分類非常相似。事實上,“立足于這套網絡中高于輸出層的完全連接層,經過學習的過濾器最終能夠更具選擇性地把握音樂中的某些子類”,包括福音音樂、中國流行音樂或者深屋音樂等。在實踐當中,這意味著此類系統能夠僅基于歌曲的相似性(這種特性對于用戶組合個性化播放列表非常重要)以有效進行音樂推薦。盡管我們尚不清楚Spotify公司是否會將這些發現納入實際算法,但這項實驗本身的意義仍然值得高度肯定。
解決冷啟動難題
冷啟動可謂推薦系統的天敵,其可能對用戶及條目產生嚴重影響。對于用戶而言,冷啟動意味著當前系統幾乎甚至完全不具備任何與客戶行為及偏好相關的信息。而條目冷啟動則代表其缺少能夠指導用戶互動的條目到條目間關聯數據(雖然我們仍然擁有元數據,但這并不足以提供真正的細致建議)。而利用上述基于內容的方法,條目冷啟動的實際效果將得到明顯改善,因為其能夠保證推薦系統較少依賴于事務及交互數據。
然而,為新用戶創造有意義的個性化體驗又是另一個棘手的問題,而且很難通過簡單收集更多信息加以解決。這種狀況在電子商務網站或者包含廣泛產品組合的在線商店系統中普遍存在,客戶會隨著時間推移而隨意訪問完全不同的瀏覽目標。他們可能最初決定購買微波爐,但卻在下一次訪問時查找手機。在這種情況下,第一次會話收集到的數據與第二次會話幾乎完全無關。
解決用戶冷啟動問題的一種有趣思路在于建立基于會話或者條目到會議的推薦。簡單來講,這意味著系統不再依賴于客戶的整體交互歷史,而是將相關數據分解成多個不同會話,同時立足于特定會話的點擊流為用戶建立興趣模型。通過這種方式,未來的推薦系統可能將不再依賴于數月甚至數年之內收集到的、經過精心設計的客戶資料,而完全可以在用戶進行一段時間的網站操作之后為其提供合理的相關建議。
盡管這一領域尚未得到徹底研究,但確實有可能帶來巨大的個性化在線體驗提升機遇。Gravity R&D公司的研究人員們在參與歐盟資助的CrowdRec項目時共同撰寫了一篇論文,其中介紹了如何利用一種卷積神經網絡(簡稱RNN)方法提供基于會話的建議。這是第一篇利用深度學習技術通過基于會話方式實現推薦功能的研究論文,而結果表明他們的方法擁有優于當前最新算法技術的實效。
真理四時刻
所謂真理四時刻,是指客戶在根據企業溝通與相關可用信息作出決定的四段短暫時間。這些決定雖然受到長期考量、個人喜歡以及品牌忠誠度等因素的嚴重影響,但同時也受到瞬時印象的引導。面對這些真理時刻,強大的深度學習系統很可能帶來足以左右人類決策流程的可行方法——這樣的見解無疑相當新穎。
舉例來說,我們都知道漂亮的產品圖片能夠促進銷售(整個行業都在想辦法為出租房屋或者食物拍攝美觀的圖像)。但在另一方面,我們也期待著能夠利用基于深度學習的圖像分析方法來評估產品圖像中的視覺特性到底如何對銷售活動產生顯著的積極影響。
誠然,本篇文章所涉及的內容并不詳盡。個性化無疑是當今互聯網行業最為迫切的需求之一,而深度學習技術幾乎必然在這一領域擁有著巨大的潛能。因此,希望保持自身競爭優勢的企業自然也有必要時刻關注這項技術的發展與動向。
原文鏈接:
http://dataconomy.com/2017/06/deep-learning-personalizing-internet/