某CTO眼中的WOT2015大數據技術峰會:干貨應接不暇
原創上半部分文章推薦:資深粉絲眼中的WOT2015大數據技術峰會:干貨應接不暇
9.《京東搜索和618實戰》劉尚堃,京東商城推薦搜索部總監
強烈推薦這場分享!現場的反饋非常好,分享結束后分享人劉尚堃被眾多同學團團圍住,被問各種問題。直到最后大會組織方需要分享人去拍采訪視頻,熱情的同學們才離開。
詳細內容,大家自行下載PPT。
10.《AB測試高效實現全數據驅動產品優化》王曄,北京吆喝科技有限公司CEO
這場分享屬于典型的技術科普,將AB測試娓娓道來。也順便聊了一下他們的產品,集成了灰度上線、小流量、一鍵回滾、一鍵發布,支持定向試驗。我個人感覺這是一款很不錯的產品,一群專注的人,一起做一件專注的事。
不過我也有一個問題:這款產品是否有能力發現流量中的高仿真爬蟲流量。我之前在電商的經驗,以及前一天京東劉尚堃也提到他們遇到的問題,總會有一些高仿真用戶行為的爬蟲出現在AB測試的結果中;如果不能排除,則會直接影響試驗的結論。
11.《云計算企業服務創業感悟》王璞,數人科技創始人兼CEO
做技術出身的王璞,現在創業做CEO,我這個同是技術出身,現初入創業大門的后來者真心佩服。幾個關鍵點記下了:
CEO要有很強的融資能力
toB方向有幾百位投資人,每位投資人各有各的秉性,各有各自的投資風格和手法。像拜訪客戶一樣拜訪投資人。
A輪到B輪不用超過1年
前期發展越快越好
12.《投資人眼中的技術創業者》王金山,IDG資本投資經理
印象很深的幾個點:
常見減分項1:炫技術。技術是手段,而非目的。
配圖太形象了。
殺個人有那么麻煩么?像這張圖一樣,把所有見過的武器都堆在一起。
還是上圖一樣,來直接的!
常見減分項2:完美主義:在正確的時間推出80分的產品。
軟技能:生動的“叻”字:能做也能說。
銷售能力:
#p#
13.《大數據挖掘下的在線教育創新價值》李明小,51CTO學院技術部總監
這場分享我沒有全程聽到,后半程才到場。
據我所知51CTO學院的業務做得非常好,無論學員規模還是講師數量,都在高速增長。今年在51學院的平臺上已經有年收入過百萬的講師了,不是講師自己的年薪,而是講師在學院平臺上的收入哦!是不是有小伙伴磨拳霍霍了:)
當有學員沒有按時間參加活動的話,系統會自動感知到,相應信息會通知到輔導員,輔導員會跟上去交流溝通,了解到原因,再輔導學員學習,反饋給講師改進教學質量。
之前都是耳聞,這次聽了李明小的分享,才不得不佩服51學院超強的運營能力。
14.《大數據時代的數據資產管理》程永新,新炬網絡執行副總裁
目前大客戶都是國企
有一張圖,數據規劃、開發、集成、運營、存檔
企業中,數據要有專人管起來。這一點,高度同意!
數據資產-管理平臺架構圖
增值:對內強化能力
變現:對外呈現價值
關于大數據應用的跨界場景
數據價值:與傳統行業的跨界合作。
案例:航空、電信、保險、銀行幾家數據互通、脫敏,為主營業務合作。
干貨心得:區域化的數據跨界交換,找到三五個partner,比理想主義的全球化有用的多。
#p#
15.《大數據點燃營銷---百分點精準營銷實踐》蘇海波,百分點數據挖掘部研發總監
目前,業內真正應用大數據比較充分的應用是:推薦/營銷/征信。
百分點推出了營銷管家,此處見營銷管家的業務流程圖。
多用戶觸點打通,跨屏投放,整理企業一方的數據沉淀為用戶群體,豐富的營銷模型,應用微觀層面的用戶畫像,形成用戶建模后的數據閉環。
目前百分點5000-6000千萬的日活躍UV,3.5億用戶畫像,1億商品記錄,分類體系比較準確,準確度達到95%。
舉了一個用戶年齡的例子:
通過填寫真實年齡的用戶數據,預測準確度達到85%后,再將所有用戶均打上年齡標簽。
消費層級分為9層。之前嘗試過3層,但發現聚類后,某一層如低價格區間的快消品會聚到很厚的一層。分為9層后,類間的差別比較明顯。
因為市面上的每個DSP能力各不相同,百分點搭建了一個自動對接所有DSP媒體的DSP,并在分鐘級將數據報表拉回來。因為百分點之前在用戶畫像方面的積累,所以轉作營銷時,幾個實際案例中都大幅地提升了投放效果。
目前百分點正在與各大公司互相“聚合”數據,也算某種意義上的數據流通、數據互換。比如最近合作的公司就有華為這樣的大體量公司。
為傳統公司收集第一份數據時,打磨出了一套數據整合工具。
百分點不愧是行業內在大數據領域的先行者之一,從2011年拿到A輪融資,到2014年拿到D輪融資,并發布BDOS-大數據操作系統,發展很快。尤其在2014年趁著政企大推大數據的趨勢,發展勢頭迅猛。
#p#
16.《廣告大數據核心技術剖析》盧億雷,AdMaster副總裁
廣告系統的幾個大數據運營難點:可靠性、可用性、擴展性、高性能、安全、性價比、監控維護。
推薦關注Flink
目前Spark的失敗率高,如果是小時級的報表,推薦MR即可。
ElasticSearch/Druid(pinot)
也曾嘗試過100臺MongoDB,但最后去掉了。最終用SSD來解決復雜查詢的問題。
解決多值列問題,推薦Pinot/ES,用于區別用戶畫像在多個“行業”的場景數據。
可以看看ADMaster的數據處理流程,應該是很有參考意義的。有一些近年來的改進,好在今年來改動不多。
廣告投放作弊金額,今年達到63億美金!作弊流量中75%流量是機器人。
目前ADMaster與在國內有業務的世界500強中的70%有合作,廣告展示的監測。
盧億雷這位技術大神恐怕是在中國互聯網圈內大數據技術分享頻率最高的人之一,幾乎所有大數據相關論壇都少不了他的身影,也是業內著名的交際花之一。
我本人曾有一次與盧兄兩個人在北京5號線地鐵里聊技術、聊行業,聊了2個多小時,站的腿都酸了,都不忍離開。
17.《大數據質量保障》錢承君,百度測試經理
個人簡介:500人的大搜團隊中,100人是做質量保障。
目前的各種開源技術,很難解決百度遇到的問題,比如幾萬-十幾萬機器在同一個機房,大數據量下的集群,很可能會跨機房。開源技術幾乎不考慮跨機房的問題。
幾百臺服務器有閑置資源,不算大事;但幾十萬臺服務器,如果有閑置資源,就太可惜了。
#p#
5分鐘級別的反作弊體系。
復雜系統的50%以上的代碼是容錯代碼。
比如有磁盤缺油了,在某個地方的磁道訪問會變慢,這時會引起上層應用代碼的問題。還需要在線下環境中,比如30分鐘內復現問題,定位問題根源,解決問題,再上線。
能定量地回放、可復現問題,在百度的大規模數據集群,各種低頻事件一定會發生。
Google的做法則是線上線下完全一樣,物理上也完全一致。比如100臺線上機器,100臺線下機器。這樣,大幅降低測試/線上環境不同帶來的異常。
Facebook也會遇到有狀態回滾和無狀態回滾。對于有狀態的回滾,仍然是頭疼的問題。曾經問過Facebook的技術大神,遇到這種問題怎么解決,大神思索了片刻的回答更加神:you need very very be careful !
百度的做法是用多個面的測試代替一個體的測試。
程序走岔路后,一定是唯一的log標識來表達路徑的選擇。
數據質量保障:
數據log規則細化:按比例,當有一天某個規則下的流量發生異常,監控報警。以及報警系統自動逐級升級,從負責的工程師,到經理。
錢承君分享的精彩結尾:“我是做測試的,今天給各位開發的同學做技術分享,大家還都聽的這么hi,我特別開心”。
錢承君分享時語速很快、風格特別風趣,是整個周末我聽到的所有分享中最有意思的。這場聽下來,大漲眼界的同時,人也精神抖擻了很多。沒想到聽錢承君的分享,還有這個功效:)可惜的是他用他最快的語速,也只講了PPT中的一半內容;更可惜的是他現場講的東西,80%都不在PPT上,沒聽現場的同學很難從PPT倒推出他的分享干貨了。
18.《實時競價(RTB)廣告中的數據和算法》林招,品友互動數據部總監
品友林招的本次分享是典型的RTB科普性分享,很多高技術含量的細節顯然沒法在45分鐘之內展開,這場分享中我主要記錄一些很有啟發性的數據。
QPS:30萬次請求/每秒,2015年9月。每次請求處理時間100ms之內。
200億請求/每日 10億網頁 20萬網站 60萬主流APP
Redis集群30T
PC人群400億,APP200億
至此,我們看到品友DSP的數據是不是有點“大”的味道了。這樣的數據訪問規模,每秒30萬次訪問、每日200億次請求,顯然已經遠遠超出了非廣告領域的絕大多數企業接觸到的數據量。而國內DSP的領先者再比較國內的廣告領域領頭羊百度大搜、百度網盟、360、騰訊廣點通的數據量,恐怕又有較大的數據量和數據訪問量上的差距。
廣告時間:基于品友DMP的CTR/CPA的效果大幅提升,本質依賴了品友獲取了更多跨站的用戶行為。
#p#
算法包括:LR、logitboost、BPR(Bayesian Probit Regression) FTRL DL。
算法這塊基本沒有展開,可惜了。畢竟CTR與用戶標簽是DSP最核心的技術。
全局最優規則,DSP的流量不是自己的,所以跟百度情況不一樣。
遇到挑戰:冷啟動、臟數據
后記
在深圳的短暫周末很愉快,深圳天氣也很好,痛苦的是周日晚上我回到了霧都北京,趕上了霧霾爆表,整個人都不好了。現在的天氣還不錯,12月1日晚的大風吹走北京的大霧,讓幾乎整個11月都沒見到晴天的北京又見到了太陽。
另外一個收獲是我在本次WOT大會上與3位曾經的“黃金一代”成員再聚到了一起,微博推薦廣告技術總監王傳鵬、百分點技術總監蘇海波、京東推薦搜索總監劉尚堃。你能想象到2010年左右這幾位技術大咖在一支團隊中寫代碼么?你能想象出那支曾經的“黃金一代”的團隊戰斗力么:)
最后一張,娛樂一下:
作者簡介:
傅強,2015年年中作為技術合伙人加入九枝蘭,為企業提供在線營銷的整合投放Saas服務。2006年-2015年任職當當,從工程師、架構師、高級總監到技術副總裁,從技術的維度,見證了中國電商時代的風起云涌。