成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

騰訊數據平臺部總經理蔣杰:數十億廣告的基礎是精準實時推薦

開發
本文是福布斯中文網“數據大玩家”專欄中的一篇文章。接受提問的蔣杰先生,是騰訊數據平臺部總經理,在加入騰訊前,他曾經是支付寶的數據經理。提問的車品覺先生,是中國信息協會大數據分會副會長。

[[120794]]

本文是福布斯中文網“數據大玩家”專欄中的一篇文章。接受提問的蔣杰先生,是騰訊數據平臺部總經理,在加入騰訊前,他曾經是支付寶的數據經理。提問的車品覺先生,是中國信息協會大數據分會副會長。

在過去幾年,你在騰訊做了什么來推動大數據的應用?

過去三年,我一直在堅持一件事:推動大數據的實時應用。現在從國外數據中心的數據,一秒鐘可以達到深圳數據中心,這就是騰訊具備的數據能力。有了這個能力,就可以做很多商業化行為的模式。

目前騰訊收集的數據已經超過了 1 萬億條, 計算機規模已經超過了 8 千 8 百臺。這么龐大的數據如果能實時處理,就能發揮出巨大的商業價值。這個商業價值就是精準推薦。

每年騰訊幾十億的廣告,其基礎來自于數據的精準推薦。實時數據推薦還可以用于視頻的推薦,騰訊音樂推薦,新聞客戶端的推薦,游戲道具的推薦,等等。

目前我們做到從數據進來到投放數據,延時不會超過 50 毫秒。有這個技術基礎,騰訊的精準推薦才有了基礎。

從內部管理而言,實時也降低了成本。因為實時數據處理可以用足“每一秒”。傳統的數據倉庫一般從晚上零點到第二天早上八點,做數據截斷、抽取和處理,因為早上九點老板就要看數據報告了。數據處理的時間只有一天之中的三分之一,其他時間都是空閑的。

當我們把數據做到實時處理的事后,實際意義是將分析時間成本分攤到全天,成本更低。同時這也有利于控制風險,因為只要一出錯馬上可以監控,迅速回滾。

所以你將大部分精力放在了“實時”上,你為什么認定“實時”會為騰訊增加更多的商業價值?

數據首先是有時效性的,一秒鐘前的行為和一秒鐘后的行為有著天差地別。

以往我們通過統計數據,得出規律,找到用戶喜好。而現在實時變得更為重要。前一秒你看了母嬰內容,那么幾秒內就應該推送相關廣告,轉化率會比較高。如果你還在推送幾天前,這個用戶看足球的數據信息,這個生意就很難做下去了。

在騰訊,我們分三個領域各自研究精準推薦:數據整理、實時計算、算法研究。我深知,實時計算是關鍵核心。

在我的腦海中,一切數據必須以消息為中心,實時處理、提煉瓜分。實在解決不了的數據,再做離線分析。

比如一張照片,在數據處理端口肯定首先被實時過濾,這張照片是在哪里拍的?其中幾個人,通過什么方式拍攝的?在所有數據收集處理完之后,我可能還需要找這張圖片與其他圖片的關聯關系,這時才會做離線處理。

騰訊基本上 90% 以上的數據都是在線實時處理。我一直在堅持將騰訊的數據集中起來,放在一個平臺體系之下,這其實是來自阿里巴巴的教訓。(蔣杰原來在支付寶數據部門工作)阿里巴巴的數據直到今天還是四分五裂。

其實,我對于數據的實時經驗也是在支付寶時期積累的。當時我學到的一點是,如果沒有搜索引擎的支撐,就根本無法做數據分析。當時很多人都說,沒有辦法讓數據在 6 秒內被搜索出來,而我堅持認為可以達到。

實際上,現在在騰訊,一萬五千個字段,在 3 秒之內所有的數據交叉都可以實現。這是一個做技術的本分。

在實時這個領域,技術上的難點是什么?

我一直在慢慢弱化數據倉庫,逐步走向實時數據倉庫。其中***的問題是,如何實現數據實時獲取?

數據實時處理的前提,首先是實時采集。我的辦法是一方面和業務部門談好,另一方面我將數據采集文件部署到所有的機器里,從安裝操作系統的時候就寫入數據采集文件。這樣,騰訊所有 40 萬臺機器都可以協同操作。

過去兩年,騰訊從原來的一小時響應,到現在一秒鐘精準推送,CTR (點擊率)能提升 20%。規模越大效果越明顯。

精準推薦有三大要素,***是數據,第二是實時,第三是算法。

首先要有強大的數據,如果數據缺失什么都干不了;第二,效果明顯的是實時,第三才是優化算法。這是整個精準推薦體系的核心。實時在其中排在第二,我們的實踐證明, 在什么都沒變的情況下,頻率改變帶來了整體收入的提升。

在解決了獲取數據之后,數據底層所遭遇的***困難是什么?

眼下的挑戰在于深度學習。大數據時代,騰訊有 200PB 的圖片數據,如何去挖掘圖片數據的價值?如何去挖掘語音數據的價值?

我們正在做的是從結構化數據分析轉向非結構化數據。如何從非結構化數據中提煉商業價值?這包括了深度學習的 DNN 和 CNN 技術,包括如何做文本之間相似度的關系。這都是需要突破的點。

微信所有的語音訓練都是深度學習的辦法來處理。比如,每當你在用微信放語音的時候,機器自動翻譯成文字,就是靠深度學習網絡來訓練的。但目前,計算能力依然是一個門檻,這個能力并非我們想象這么輕松,需要更多計算技術來改進。

未來數據處理會有劇烈的改變么?

硬件決定了數據的能效。數據規模越大,數據展現的方式會越多,未來實時計算的處理需求會越來越旺盛。相信未來,能貼合更多應用場景的高效計算引擎會出現,這是我對未來的判斷。

很明顯的是,如果當前一秒的數據沒有處理完整,提煉清楚,隨后的分析成本就會越來越高,而數據的價值則越來越低。所以,在未來,高效計算引擎和存儲引擎的出現,會對大數據發展有突飛猛進的效用。

后記:

在蔣杰看來,沒什么比實時更重要。在騰訊,他敏感意識到實時數據對于廣告的價值,所以把大部分精力放到實時處理數據以及如何優化廣告投放上。

今天很多公司的數據倉庫是離線的,也因此數據距離實際業務很遙遠,這個距離不僅僅是無法實時反應,更多在于無法保證數據的穩定和質量。

以此而言,數據實時化是業務與數據的結合的關鍵。

但實時數據并非終點。

每秒都在生產新數據,新數據與既有數據之間的關系如何梳理?假如我們一直通過數據收集、分析得知,電腦前坐著的是一只狗,但假如某天的數據收集顯示,它會貓叫。那么我們能判斷電腦前的其實是一只貓么?

這不僅僅是數據更新變化這么簡單,而關系到我們如何判斷和分析。

所以,此時,延時判斷變得很重要。

如何在龐大數據面前,做出延時判斷?盡管你有實時數據分析的能力。

這可能是下一個更有趣的話題。 

責任編輯:林師授 來源: 虎嗅網
相關推薦

2019-11-07 21:09:21

騰訊開源大數據

2022-11-23 14:08:49

2014-08-01 17:10:07

2009-08-03 11:27:24

SonicWALL基礎設備供應商網絡安全

2018-02-27 10:42:29

物聯網智能設備物聯網平臺

2021-12-20 17:50:59

元宇宙VR英特爾

2017-12-14 14:06:43

物聯網云計算數據

2011-04-15 10:04:38

數據中心蘋果微軟

2013-01-22 17:33:30

2014-12-22 15:04:39

云端時代

2012-09-05 09:33:51

瑞友

2014-02-21 17:06:07

英特爾Brent Young簡歷

2020-09-17 11:02:40

BLESA藍牙攻擊漏洞

2012-03-23 15:27:24

阿拉丁

2021-09-08 10:40:40

云計算云計算環境云應用

2017-01-13 10:33:39

華為大數據

2020-06-22 10:06:15

數據網絡泄露

2021-12-17 11:29:03

WiFi漏洞芯片
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 看a网站| 日韩综合在线视频 | 国产精品日本一区二区在线播放 | 成人精品| 亚洲午夜网| 亚洲国产欧美在线 | 国产激情综合五月久久 | 久久久国产一区二区三区 | 成人免费在线观看 | 欧美精品在线观看 | 天天精品综合 | 色综合久久天天综合网 | www.嫩草 | 色噜噜狠狠色综合中国 | 日韩在线视频播放 | 日韩精品在线观看一区二区三区 | 91精品久久久久久久久久 | 国产精品久久久久久影院8一贰佰 | 久久久精品一区 | 久久久久久久久精 | 国产综合久久 | 五月婷婷中文 | 日韩成人高清 | 欧美精品中文字幕久久二区 | 国产精品一区在线播放 | 国产免费一区二区三区免费视频 | av一区二区三区四区 | a视频在线观看 | 神马九九 | 美女久久久久久久 | 色天堂影院 | 男女免费网站 | 自拍偷拍视频网 | 国产一区 日韩 | 国产精品一码二码三码在线 | 色性av | 91精品久久久 | 在线观看国产www | 精品在线看 | 成人国产精品久久 | 中文字幕一区二区三区四区 |