WOT講師-360劉鵬:大數據應該指導機器而不是人的決策
原創數據的規模效應擴大將我們帶入了大數據時代。在數據時代,廣告和大數據的關系是怎樣的?海量數據的爆發給安全課題帶來哪些挑戰?如何處理大數據技術和隱私之間的關系?
帶著這些問題,51cto記者采訪了360商業產品***架構師,從行業角度和宏觀領域深入解析這些問題。
劉鵬現任360商業產品***架構師,負責 360 商業化變現的產品和技術。曾任微軟亞洲研究院研究員、雅虎北京研究院高級科學家 ( 負責全球搜索廣告、受眾定向廣告、個性化內容等項目 ) 、 MediaV ***科學家 ( 負責算法和數據平臺 ) 、以及搜狐集團研究院負責人,WOT 技術峰會特約講師。
計算廣告和大數據
如果說廣告是已經十分成熟的規模化業務,大數據則正處在攻城略地的上揚階段。談及此二者之間的關系,劉鵬認為,相關行業對廣告的重視程度和其實際的行業地位是不匹配的,對于廣告的重視程度不足。實際上,大規模利用用戶行為數據進行挖掘創造價值的,最早的行業就是廣告,計算廣告。他提到,我們今天看到的很多平臺比如說Hadoop,它最早的應用領域也是搜索和廣告。
從實際行業規模來說,目前大數據落地的行業有若干個,像個性化推薦、廣告、個人征信,還有一些政府應用等。但是唯一形成規模化、贏得利潤的行業,就是廣告業。目前廣告行業對數據的利用、變現、交易等方面已經有了非常多的實踐,并且也形成了自己的認識。
劉鵬說:“我以前也強調過:不了解計算廣告,就難以深刻理解大數據,至少會多走很多彎路。”同時,他也提到,大數據行業的發展對廣告行業也起到相互促進的作用。
國內數據交易市場尚不成熟
“現在的廣告的服務模式交易模式已經完全變成技術和數字驅動的產品模式,越來越程序化,通過算法來打交道來交易,技術已經變成了主導了。”劉鵬說道。不過在他看來,個性化推薦是一個多方博弈的市場,意味著不是一個算法能夠決定一切,所有的問題都需要在博弈中尋求***解。
在他看來目前***的問題是在中國市場數據加工和交易不夠成熟,沒有一個成熟的交易市場。他說:“比如我有一個算法,我可以通過用戶的行為特征來提高廣告點擊率或者廣告的效果。但是數據的來源從哪來呢?為此必須要有一個合法合理的數據交易市場,但是這個市場在中國不是很完善,算法可能有,但是數據來源的缺失可能導致很難把算法的作用發揮出來。”
大數據應該指導機器而不是人的決策
在談及大數據對決策的指導意義時,我們常常默認數據分析的指導意義,而忽視了其指導的對象。對此,劉鵬提出了他的看法。他強調,真正有價值的、或者說值得討論的是規模化分析的個體或者群體行為特征,應把它用來指導機器的決策而不是人的決策。
從數據分析、數據加工再到數據分析是一個閉環,這個閉環有算法來指導,并不斷地優化。如果將數據分析的報表交給一個人來做決策,相比機器,人的效率低,并且不確定性很大。
數據脫敏無法解決隱私問題
在信息時代,海量信息在不斷地生產擴張。據統計,在過去的一年中,全球數據中心的IP流量已經達到了8.6 ZB,相當于每月715EB,而這一數據在2013年還只有3.1ZB,可以說是翻了一倍還不止。如此激增的龐大數據量,相對應地也給數據安全帶來了一定挑戰。
在劉鵬看來,數據安全和網絡安全是兩個課題。數據的安全有兩個層次,一是對個體而言,一是對企業而言。目前這兩個問題剛剛受到關注,他認為,一定要有大規模的問題爆發出來才能引起大家的重視。目前來講,用戶對數據安全、隱私的重視程度還不夠。
比如數據脫敏,數據脫敏能不能解決用戶隱私問題呢?劉鵬認為實際上二者差著十萬八千里。他拿熟人之間的隱私問題舉例:熟人很容易得到你的行為屬性,比如你最近看了什么電影,一般人在網絡上看到某某id看了什么電影,他可能不知道是誰,但是你的朋友很容易把這條記錄和你聯系起來,因為他對你是很了解的。熟人一旦有意識地刺探隱私,他會有非常強的動力,并且不太計較成本。這樣前提下,熟人隱私問題會變得很復雜。
“互聯網的特點就是這樣,沒有任何兩個人的行為數據看起來是相似的。”劉鵬說,“數據或者說行為標簽如果控制不好的話,別人是很容易獲得的。但是這件事靠脫敏,是解決不了問題的。”
對于數據量激增帶來的安全問題,劉鵬認為這是發展中必不可免的問題。他強調互聯網已經成為既成事實,也不可能倒退回去。隨著安全問題得到進一步的重視,將來會有更多理論和實踐的研究,慢慢地去解決這些問題。
WOT大會上將回顧數據變現的歷程
討論到如今云計算和大數據為何這么火?劉鵬說因為他們或多或少都和房地產有些關聯。用他的話說,就是“落地”——落實到房地產行業。相比之下,廣告對互聯網來說雖然比云計算和大數據重要得多,但是不受重視,因為廣告業務很難和拿地發生關系。
在采訪***,筆者問及劉鵬作為WOT峰會的特約講師,會在11月在深圳舉行的WOT大數據峰會上分享哪些內容。
他告訴筆者,希望和大家一起回顧數據變現的歷程:“用戶行為數據最早為什么被記錄下來?又如何產生價值?產生價值的過程中它影響了哪些商業產品以及當它成為規模化資產以后面臨的哪些交易交換問題?現狀是什么?挑戰又是什么?我會從數據變現的整個領域同大家一起討論。”