WOT2015周紅剛:大數據時代的數據采集
原創提到當下IT領域最時髦的詞,大家一定會想到“大數據”。隨著大數據技術的進一步落地,各行各業的企業紛紛擁抱大數據。我們知道,豐富的數據源是大數據產業發展的前提。然而,雖然如今幾乎任何規模企業,每時每刻也都在產生大量的數據,但這些數據如何采集、提煉始終是一個困擾。于是,針對大數據的采集問題,51CTO記者在【WOT2015"互聯網+"時代大數據技術峰會】現場采訪了資深數據平臺架構師,來自汽車之家的周紅剛。
周紅剛畢業于中國傳媒大學,目前在汽車之家主要負責APP和WEB站點的數據采集工作,專注于將采集工作流程化、產品化。加入汽車之家前從事過電子商務、三維虛擬現實、視頻媒體應用以及影視制作等多種行業和業務,充分體會數據采集工作在各行業應用中的重要性和復雜性,并對如何建設一套高效的數據采集系統有充分的實戰經驗。
大數據時代,我們需要更加全面的數據來提高分析預測的準確度,而全面的數據需要從海量的數據中來找到。如何才能采集到有價值的全面的數據呢?數據采集對很多企業來說并不是一件容易的事情,需要一定的方式方法。周紅剛表示,采集工作并不太復雜,針對APP的數據采集可以通過SDK,針對網頁數據的采集可以通過GS。其實說到底,就是提供一個地址,給這個地址發送數據,SGP的請求可以完成所有的事情,這是在大部分的流量常用的方式;還有一種是在服務器端,從文件里直接解讀;另外,還可以通過黑客的方式,從路由器、網絡里面直接截取,但這不屬于常規方法。
在數據的采集工作中,除了技術以外更多還要考慮業務,特別是滿足業務方的需求是個難點。另外,因為數據的采集處在數據的前端,如果采集過程中數據丟失了,這是件可怕的事情。所以數據采集前首先要充分了解需求,在發生問題的時候能快速解決,還要避免數據的丟失。
周紅剛表示,雖然數據采集的技術上的技巧不多,但是還是有很多小的方法的。比如:通過自動化,自動部署統計代碼,自動排查加碼錯誤以及自動預警系統異常。或者通過學習第三方的方法,融合對方的長處。
后記
作為中國傳媒大學的畢業生,周紅剛在經歷電子商務、安卓開發等工作后,為何最終選擇了數據平臺架構師這份工作。周紅剛戲稱:“我是中國傳媒大學廣播學院表演系畢業的,我一直在扮演一個程序員。”并告訴筆者,“‘架構師’是一個職務的名稱。因為我們會系統性地去看待一個東西,不管你是做事、還是做技術,你看得越上層越全面會越好。做架構師,能讓我能站在寫代碼之上的東西來更好地看待它,對我很有幫助。”
周紅剛表示要想做好一名數據平臺架構師,首先要思路要跟上,多做除技術之外還要多考慮架構問題,確定方向,這樣更容易進行以后的工作。再次,讓采集系統之外的人能夠理解這個架構,并抽象出來。
戳下方圖片,更有料!