深度學習正在讓用戶隱私成為社交巨頭的搖錢樹?
福布斯近日撰文介紹了Facebook利用深度學習技術來全面了解用戶的四種令人驚嘆的方式,它們分別是文本分析、人臉識別、定向廣告和設計AI應用程序。
近年來,媒體對機器學習、深度學習等人工智能技術進行過不少的基本介紹。展開相關研究的企業也不在少數,那企業們實際上又是如何應用它們的呢?
Facebook是通過了解它的用戶和為廣告主“包裝”用戶數據來展開業務的。而它從業務運營賺到的錢會重新投入到給用戶提供有用的新功能,目前來說主要是提供視頻和購物功能。接著,它還會利用這些功能服務來進一步了解用戶。
隨著該社交網絡帶給人們的通訊和對話交流方式被證明對我們很有價值,它成為了能夠吸納海量用戶數據的“磁石”。那些數據涉及用戶是誰、他們如何花費時間、他們喜歡什么等信息。對于Facebook從事數據挖掘工作的數據科學家們來說,挑戰在于那些數據大部分都非常散亂,屬于非結構化數據。
雖然Facebook平臺上12億用戶每分鐘上傳的照片數量達到13.6萬張,更新的狀態數量達到29.3萬,但直至最近,Facebook只能夠寄望從它少量的非結構化數據(不易被量化和放入圖標進行計算機分析的信息)當中挖掘價值。
深度學習正在幫助解決這一問題。深度學習技術使得機器能夠自行歸類數據。一個簡單的例子就是,深度學習圖像分析工具懂得學習識別含有貓的圖像,不需要被告知貓長得什么樣。通過分析大量的圖像,它能夠從圖像的背景學習到信息——如還有什么東西可能會出現在貓圖中?什么文本或者元數據可能暗示圖像含有貓?
通過進行量化,以及方便分析工具獲取深刻見解的形式呈現數據,這有助于結構化非結構化的數據。Facebook的研究者嘗試回答這樣的問題:公司的產品多經常出現在有貓的圖像當中?我們是否該專注于向喜歡貓的人展示我們的廣告嗎?
那一基本原理解釋了為什么深度學習對Facebook有用,隨著深度學習算法變得更加先進,它們能夠被應用于更多我們所分享的數據,從文本到圖片再到視頻。
以下幾個特定的使用案例解釋了深度學習如何被用來獲得價值,幫助Facebook實現為用戶帶來更多便利,進而能夠進一步了解他們的目標。
1. 文本分析
Facebook上分享的數據很大一部分還是文本。視頻可能涉及更大量級的數據,但在獲取洞察方面,文本仍能夠帶來同等的價值。一張圖片可能含有1000個字,但如果你只想要回答一個簡單的問題,你通常不需要回答1000個字。任何無助于回答你的問題的數據都是噪音,都會浪費用于存儲和分析的資源。
Facebook采用它自行研發的一項名為DeepText的工具來學習分析用戶所發帖子的語境,進而提取字詞的意思。通過分析詞語之間的關系,神經網絡能夠根據那些詞語周圍的詞語理解它們的意思變化。由于這是一種半監督半非監督式的學習,那些算法不一定有解釋每個詞語意思的參考數據,比如字典。相反,DeepText是根據詞語是如何被使用的來自學。
這意味著DeepText不會被拼寫的變化、俚語或者特別的語言運用難倒。事實上,Facebook稱該技術“能夠支持各種語言”——由于它給詞語貼標簽的形式,它能夠輕松地在各種不同的語言當中切換,能夠將它從一種語言中學到的東西應用于另一種語言。
目前,該項工具被用于根據人們的對話內容將他們指向他們可能想要購買的產品。Facebook曾發布視頻,舉例解釋DeepText是如何根據語境來決定是否該給用戶提供購物鏈接。
2. 人臉識別
Facebook采用名為DeepFace的深度學習應用程序,致力于教導它識別照片中的人。該公司表示,在識別兩張不同照片中的人是否是同一個人上,其***進圖像識別工具比人類還要準確——DeepFace識別成功率達到97%,人類則是96%。
這種技術的使用顯然存在爭議。隱私擁護者們指出,這種工具做得過火了,它會讓Facebook能夠根據人群的高分辨率照片給很多的人臉打上名字,這顯然會對我們在公眾場所匿名行走的自由構成威脅。歐盟監管機構對此表示認同,2013年它說服Facebook將該項功能從歐洲公民的賬號中撤除。當時,該社交媒體巨頭使用的是一個人臉識別工具的早期版本,并沒有采用深度學習技術。自該技術***引起廣泛關注以來,Facebook就一直沒有透露它的進展。或許,它在等待一些隱私案件的裁決,想要在此之后再公布它的推出計劃。
3. 定向廣告
Facebook利用深度神經網絡(深度學習的基石)來決定向哪些用戶展示哪些廣告。這一直以來都是它的業務的基礎,通過讓機器自行盡可能多地了解我們,在推送廣告時以最富有洞察力的方式將我們聚攏在一起,該公司希望維持其對谷歌等其它角逐廣告市場的高科技競爭對手的競爭優勢。
4. 設計AI應用程序
Facebook甚至認定,決定那些運作能夠通過AI和深度學習來改進的任務,能夠由機器來處理。它實施了一個名為Flow的系統,該系統利用深度學習分析來每月對30萬個機器學習模型進行模擬,讓工程師能夠測試驗證他們的想法,精確找到提升運營效率的機會。
開源
Facebook非常支持開源,其名為Facebook人工智能研究(FAIR)的AI實驗室的大部分研究成果都免費提供給任何人使用或者修改。Facebook的深度學習技術主要基于Torch平臺,該平臺環境專注于深度學習技術和社交網絡的開發。
該公司甚至將其GPU驅動的AI硬件設計開源。那種超快速的計算機專門針對深度學習任務的執行進行了優化,該類任務往往需要非常強大的處理能力,因為它們涉及大量的運算,處理輸入數據的速度要求很高。
展望未來
深度學習很可能將會繼續在Facebook的未來發展中扮演重要的角色。盡管它目前對潛在的新應用三緘其口,但它提出過的想法包括:自動生成圖片的語音描述來輔助視覺障礙者,以及預測哪些地方需要更大范圍的網絡覆蓋,履行將網絡連接推向全球各地的使命。長期而言,他們實力雄厚的AI和深度學習實驗室可能也將會讓無數的機構組織獲益,不管是通過直接使用他們的服務,還是間接得益于他們對開源的支持。