資深粉絲眼中的WOT2015大數(shù)據(jù)技術峰會:干貨應接不暇
原創(chuàng)引言
11月28、29日,WOT 2015大數(shù)據(jù)技術峰會的主辦方51CTO按照行業(yè)領域設置分享專場,我感覺這個做法的體驗很好。在這次大會上我個人對廣告、互聯(lián)網(wǎng)金融、創(chuàng)新、創(chuàng)業(yè)幾個主題最為感興趣,完整的專場聽下來,感覺很過癮。
講師們的演講水平真心不錯。我印象里前幾年參加各種大會時,若能在1天中聽到2場有干貨的分享,就算是很有收獲的了;這次,我感覺聽到的分享至少一半以上內(nèi)容還是很豐富的,而且講師的素質(zhì)也很高,讓我很有收獲。我想達到這種效果的原因無非三種可能:猜測1,大會的高質(zhì)量與51CTO的團隊精細化運營分不開,呵呵!有廣告嫌疑;猜測2,最近幾年各種大會越來越多,講師群體整體分享經(jīng)驗自然也越來越豐富,整體水平不斷提高;猜測3,我當年太弱了,圖樣圖森破,大師們的演講我聽不懂罷了!
從這次大會上各路英雄的分享內(nèi)容來看,廣告領域的分享仍然是應用大數(shù)據(jù)技術的若干領域中深度和廣度最突出的。這并不意外,畢竟廣告/搜索領域在很多年前使用大數(shù)據(jù)的能力就已經(jīng)很成熟了,更是在近些年“大數(shù)據(jù)”這個字眼被發(fā)明之前,Google的三駕馬車技術就已經(jīng)被應用在生產(chǎn)環(huán)境,進而才有的 Hadoop這樣劃時代開源產(chǎn)品的誕生。
本來是整理我參加大會的筆記,后來收到51CTO組織者嵐宇、楊總的盛情邀請,我將這份筆記也分享給大家。筆記內(nèi)容主要是基于我本人已有的知識體系的信息增量部分,所以很多同學們非常關注的架構圖、業(yè)務圖,如果我已經(jīng)比較清楚的,我這里沒有放出來(PPT下載地址);我分享的信息要么是大神們現(xiàn)場講到,但沒有寫到PPT中的關鍵信息,要么是我認為非常精彩、信息量大的PPT截圖。
現(xiàn)在進入正題。前一天趕上飛機晚點,又趕上預訂的酒店沒有訂上,凌晨4點才睡下,早上楊文飛總編開場和李大學先生的分享沒有趕上。我聽的第一場分享來自國內(nèi)廣告領域的大師級人物劉鵬。
1.《數(shù)據(jù)變現(xiàn)與交易的歷史與未來》劉鵬,360商業(yè)產(chǎn)品首席架構師
不愧是“負能量”自媒體劉老師,開篇第一頁就很“負能量”:)
劉鵬大神總結的大數(shù)據(jù)與“非大數(shù)據(jù)”的區(qū)別很到位:
交易核心數(shù)據(jù):行為數(shù)據(jù)
數(shù)據(jù)采用:全量加工(個人征信、廣告、推薦)
洞察:自動化應用(定向廣告、客戶關系維護)
面向領導與運營:面向微觀業(yè)務,機器與銷售
我個人非常認同上面3個維度的對比,非常清晰地說明了大數(shù)據(jù)應用與非大數(shù)據(jù)應用的區(qū)別,比常見的大數(shù)據(jù)幾個“V”要清楚地多。
關于數(shù)據(jù)價值,下面這張圖講的很清楚,收益的增量部分則是數(shù)據(jù)帶來的價值。
數(shù)據(jù)價值:6000+6000-10000 = 2000
男性定向廣告+女性定向廣告 VS 一成不變的展示
BAT大都是后向變現(xiàn)模式
現(xiàn)在趨勢是程序化交易/原生廣告
#p#
原生廣告的場景化,在移動上會有更好的效果
廣告的格局:廣告交易+數(shù)據(jù)加工與交易(如用戶標簽層面,規(guī)模化生產(chǎn))
資本的合作,才有數(shù)據(jù)交易。數(shù)據(jù)一旦共享出來,就是錢。微信當然不會把數(shù)據(jù)拿出來嘍!
關于第二定律、第三定律,請見全文PPT。
目前,數(shù)據(jù)價值還是被低估的,雖然數(shù)據(jù)可以賣給2個人,也可以賣給10個人,但競價會更激烈,某種意義上更多的數(shù)據(jù)共享是數(shù)據(jù)價值的貶值。此處有數(shù)據(jù)定價不合理。如何定價?這是個新的問題。
數(shù)據(jù)隱私:PRI是嚴格不能使用的。如手機、家庭住址。
用戶可以自己屏蔽,但誰都知道真正手動去設置屏蔽的少之又少。
不能長期保留,2年以上要銷毀。數(shù)據(jù)管理上已經(jīng)是風險。
隱私不是怕生人知道,最大的顧慮是被熟人知道。如果惡意的熟人,受到的傷害將會更大。
劉鵬大師很有行業(yè)大師的范兒,還略帶些學者的感覺。分享角度高屋建瓴,放在第一天主會場再合適不過了。只是行程有些倉促,剛剛分享完畢就趕去機場了,聽眾們沒能跟大神有充分的線下交流,實在有些可惜。最近他的大作《計算廣告》在業(yè)內(nèi)很熱,劉鵬大師受到各處的邀請,恐怕會占用大量個人時間吧!
看到如今,我們互聯(lián)網(wǎng)的技術大神們可以像明星一樣被追捧,這真是件好事。用51CTO熊總的話講,“這是有史以來,技術人才最好的時代”。
2.《數(shù)據(jù)化運營如何創(chuàng)造商業(yè)價值》張溪夢,GrowingIO創(chuàng)始人、前LinkedIn分析部高級總監(jiān)
張溪夢大神在領英5年時間,經(jīng)歷了領英的年收入從1億美金提升至50億美金。
病毒式的用戶注冊,以及新客成本是該領域平均新客成本的50%。這些都是數(shù)據(jù)分析的價值。
最早期的數(shù)據(jù)分析支持100位銷售,提升對銷售工作效率。
從每位銷售人均閱讀300個銷售線索,用數(shù)據(jù)分析利器,迅速發(fā)現(xiàn)最有價值的Top10給到銷售,大幅地提升銷售簽單的效率。
從用戶屬性-用戶行為-用戶社交信息數(shù)據(jù),一步步找到更精準的信息。
近實時地同時追蹤600個KPI,這樣大幅地提升網(wǎng)站功能測試的效率。
#p#
上圖的展示方式,是很容易地發(fā)現(xiàn)用戶信息的變化,推薦!
全員數(shù)據(jù)驅動:用戶分群后給出分群轉化的建議。
從上面的分享,我們也能感受到以領英為代表的國外公司是非常重視數(shù)據(jù)指導決策的,更是很依賴充分地使用技術工具提升工作效率。據(jù)我的了解,國內(nèi)以互聯(lián)網(wǎng)企業(yè)為代表,也都不同程度地、越來越深入地使用數(shù)據(jù)指導運營,企業(yè)服務類的工具、SaaS服務也越來越受到資本追捧。
3.《大數(shù)據(jù)時代:精益應用性能管理》廖雄杰,聽云技術副總裁
廖總的分享是第一天上午開場各個分享中保留技術氣質(zhì)最多的。
監(jiān)控需要跟上產(chǎn)品迭代速度。
監(jiān)控應用是比較復雜的事情,基礎監(jiān)控都很通用,很容易。
上圖很好地說清楚了所謂精益化性能管理的思路。
舉個栗子,假如我們需要檢驗xxoo這個函數(shù)的運行效率。
從插入代碼的方式。我們都知道如果需要每個函數(shù)都寫這樣的代碼來監(jiān)控性能,是會被開發(fā)人員吐槽吐死的。于是考慮用自動注入監(jiān)測代碼的辦法:
到-javaagent:apm,從main函數(shù)/premain函數(shù)里加監(jiān)控代碼。
用agent方式運行,就自動加入了監(jiān)控代碼,更帥的辦法是寫在JVM內(nèi)部。
我的問題是:監(jiān)控XXOO函數(shù)的性能,我們到底是希望執(zhí)行時間越短越好,還是越長越好呢?哈哈!
4.《大數(shù)據(jù)與行為預測模型》劉志軍,馬上消費金融CDO 原Capital One總監(jiān)
馬上消費金融嘗試3類算法:聚類、預測、分類。其中聚類的主觀性太強,實際應用中大多數(shù)精力都放在預測方面。
#p#
窗口時間多少,取決于金融產(chǎn)品的周期,短期還是循環(huán)額度、信用卡。長期的產(chǎn)品,就要關注一年內(nèi)把所有高峰期都算一遍。
據(jù)劉志軍大神講到,美國是提供真實納稅人的信息查詢的,每次2元(大概是美元吧!現(xiàn)場沒特地說明),這個信息是很真實的,就是太貴了。劉志軍大神又講:我們國內(nèi)也能查…不過更貴:)
算法部分,這張圖說的很清楚:統(tǒng)計Dtree/NN/SVM/boost/ensemble建模。
判斷模型的標準:相關性、模型穩(wěn)定性。此處不用多講了,大神已經(jīng)把心得都放出來了!
判斷排序相關性的經(jīng)典算法:見圖
完美模型 vs 不好的模型 見圖
常見問題:樣本覆蓋、質(zhì)量不一、缺失值、樣本偏差
劉志軍大神的這場分享是這次互聯(lián)網(wǎng)金融專場中唯一涉及算法的。雖然沒有展開,但我們從大神提煉的方法論、推薦的算法模型能夠感覺到大神在該領域的功力。如果有哪位同學想進入互聯(lián)網(wǎng)金融領域做算法相關、模型相關的工作,我強烈推薦這篇分享。如果將其中各個要點了解一二,你就能夠很容易忽悠你周圍的小伙伴了;如果將各個要點深度吃透,找一份互聯(lián)網(wǎng)金融的模型研究相關的高薪工作,絕不是難事。
5.《互聯(lián)網(wǎng)金融的敏捷數(shù)據(jù)運營最佳實踐》王桐,北京永洪商智科技有限公司副總裁
敏捷化:當天的需求,當天數(shù)據(jù)出來
高性能、自服務
平臺發(fā)展早期的數(shù)據(jù)分析需求:考慮用戶全生命周期的數(shù)據(jù)分析,幫客戶把流量/用戶量拉上去。
從渠道引流、到注冊、充值、投標、復投。在漏斗中發(fā)現(xiàn)問題。
中期的分析需求:偏運營,財務分析、主題分析。
#p#
探索式BI是大勢所趨,互聯(lián)網(wǎng)金融的痛點是IT門口高,業(yè)務人多,技術人少,數(shù)據(jù)需求支持不過來。
痛點切得很準!
6.《京東金融宙斯Zeus安全防御平臺》劉明浩,京東金融高級安全專家
技術安全 vs 業(yè)務安全
業(yè)務安全包括:垃圾賬戶、撞庫掃描、平行權限、活動作弊、釣魚欺詐。這個分類還是很有意義的。
阿波羅業(yè)務風險地圖:容忍->預警->干預。
比如不同IP不同地區(qū),在同一賬號登陸。
統(tǒng)計下平時用戶常在哪個IP下登陸。
其他系統(tǒng)XSS漏洞
某個IP從普通用戶變成了root用戶
以漏洞為中心,威脅為中心
京東分享的防御系統(tǒng)業(yè)務太敏感畢竟不能深入。講師能分享到業(yè)務架構層面,幫助非該領域的同學們拓展下視野還是不錯的。
7.《麻袋理財大數(shù)據(jù)平臺及金融風險控制實踐案例分析》王天青,麻袋理財首席架構師
科普一下,互聯(lián)網(wǎng)金融的風險分類:信用、信息、運營、欺詐。
問題是核心數(shù)據(jù)開發(fā)少,關聯(lián)度低,價值密度低,需要多個維度。
平臺的數(shù)據(jù)流架構。大家有沒有似曾相識的感覺?這套數(shù)據(jù)處理流程實在已經(jīng)成為如今中國互聯(lián)網(wǎng)的標配了。
#p#
判斷活動是否具有突發(fā)性
信用信息可以來自社交數(shù)據(jù),比如認為一類人的信用度基本一致。
現(xiàn)場還有一種業(yè)務結合算法的圖,但在公開的PPT中沒有放出來。其中提到計算信用的部分,用到了社交數(shù)據(jù)中的言論信息,還提到使用 topicmodel,計算信用。我對此有個小問題:公開能抓到的數(shù)據(jù)應該指的是微博微信上的用戶言論數(shù)據(jù)吧!但那上面的每位用戶表達的語句大都很短,一方面短語料對計算topic model挑戰(zhàn)很大;另一方面短語料中的信息,包括情感信息,就能與人的信用搭上關系么?即使有關聯(lián),這種關系又有多強呢?
8.《大數(shù)據(jù)金融云的實踐分享》鄭赟,宜信大數(shù)據(jù)創(chuàng)新中心研發(fā)總監(jiān)
宜信每分鐘有一個新客戶,2000萬借貸款每小時。我們貌似可以推測出宜信每年的新客總數(shù)了:)
鄭赟(這個字念yun)講到姨搜-名稱的來歷:“讓阿姨證明你媽是你媽”。
自有的用戶行為收集系統(tǒng)
獲取來自互聯(lián)網(wǎng)上的數(shù)據(jù),建立知識圖譜
數(shù)據(jù)維度很重要,依靠社交一度關系判斷
智能理財:宜信也有用戶推薦
小插曲:鄭赟講了商通貸的故事,談到這個產(chǎn)品剛剛上線的時候做算法的同學們都很緊張,因為這支算法團隊的同學們之前大都是做推薦系統(tǒng)的,而這款產(chǎn)品高度依賴信用評估,他們在這塊經(jīng)驗不算多。呵呵,這時候有哪位同學能猜測出這支算法團隊的帶頭人了么?猜到的同學請舉手,要么你是算法領域資深人士,要么你是獵頭。
PS:因為干貨太多,我們分為兩個部分進行推薦。
下半部分文章推薦:某CTO眼中的WOT2015大數(shù)據(jù)技術峰會:干貨應接不暇
作者簡介:
傅強,2015年年中作為技術合伙人加入九枝蘭,為企業(yè)提供在線營銷的整合投放Saas服務。2006年-2015年任職當當,從工程師、架構師、高級總監(jiān)到技術副總裁,從技術的維度,見證了中國電商時代的風起云涌。