獨家直播雙11全網動態?前黑客“勞改”帶你玩轉大數據
本期邀請星圖數據CTO崔侖帶來“獨家直播雙十一全網動態?前黑客“勞改”帶你玩轉大數據 ”的主題分享。
分享嘉賓:星圖數據CTO 崔侖
嘉賓簡介:崔侖,知名“黑客”,搜索引擎及信息安全專家,10年互聯網、軟件研發經驗。曾在阿里巴巴設計并主導開發淘寶及天貓若干一線數據產品,包括站內搜索、一淘、阿里媽媽廣告引擎等。在此之前,曾任瑞星科技高級軟件工程師以及TOM軟件工程師。精通搜索引擎及高并發數據服務的架構設計研發,對大數據及云計算領域有深入研究。
公司簡介:星圖數據(Syntun)是消費領域專業的大數據產品、服務和解決方案提供商;專注為企業、互聯網平臺及消費者提供全方位專業數據服務。使用自主研發的大數據技術,并依靠長期積累的行業零售研究、用戶研究及數據處理經驗,以及獨到的大數據分析體系和云計算處理技術,打造了一條為品牌制造企業、線上流通平臺以及網購消費者提供全方位專業數據服務的消費領域大數據服務產業鏈。
主要產品:
D-Matrix(數據矩陣)大數據分析系統:為品牌企業提供豐富、直觀的數據查詢、分析與預測功能。D-Matrix是基于iNebula(分布式大數據獲取與存儲系統)與WarpEngine(大數據處理與分析引擎),集成了搜索引擎、分布式計算、機器自學習算法等大數據領域的領先技術,為品牌企業提供豐富、直觀的數據查詢、分析與預測功能。
SkyScope(天鏡)線上渠道巡檢系統:幫助企業及時了解渠道的經營狀況、實時進行渠道巡查、發現和查處渠道的違規行為。SkyScope線上渠道巡檢系統,通過搜索引擎、數據挖掘等技術,為品牌企業提供實時的渠道監控與管理工具。幫助企業及時了解渠道的經營狀況、實時進行渠道巡查、發現和查處渠道的違規行為,并以短信、郵件、APP推送等方式,實現實時預警。
AtomPower(原子力)SKU單品分析系統:為企業提供單品監控與管理工具,幫助企業及時了解單品的銷售市場狀況。AtomPower SKU單品分析系統擁有及時、細致的龐大的基礎數據資源。能夠實現數據每日更新。強大的大數據引擎,可以實現快速、自由的數據展現、分析與追溯,以及海量的數據整理和挖掘。
以下是11月20日CTO講堂現場完整速記:
主持人:今天講堂開始啦,歡迎星圖數據CTO崔侖,請您跟大家介紹下自己吧。
崔侖:hi,大家好。我是星圖數據的技術負責人崔侖。我先自我介紹一下,我是2005年本科畢業參加工作的,至今剛好10年。從小就喜歡折騰電腦,大學學的電氣工程的強電方向,和計算機硬件優點相關。畢業之后,進入了一個互聯網公司,tom.com。當年還能排得上號兒的一個門戶網站。
后來公司的SP業務下降很厲害,公司轉型,收購了ebay中國。我也是機緣巧合,被抽調去做ebay中國的站內商品搜索。折騰了半年,也算是進入了搜索這個行業,了解了搜索引擎是怎么回事,在呢么個運作原理。后來ebay業務被淘寶沖擊得比較厲害,自己做出來的東西也沒什么成就感,決定趁著年輕,換換口味,就在2007年離開了tom.com。
我相信很多做技術的人都夢想著有朝一日當一個神出鬼沒的黑客, 我也想去安全行業見識一下。于是就去了瑞星的網絡安全部。當時瑞星的這個部門并不做pc端的軟件,主要做一些放在機房里的設備。我們主要負責的是一個叫“防毒墻”的產品,就是架設在企業網關或者用橋模式架設在主干上的一個設備,可以過濾不加密的http協議的內容,當然,主要是查病毒和木馬,不涉及內容過濾。之后還有一些企業網站防護的產品,通過反向代理的方式阻擋對http服務器的攻擊。2010年,殺毒軟件的免費大戰之后,我離開了瑞星,加入淘寶,算是回到了搜索行業。插播一個廣告,我當時的老板叫馬杰,混跡安全行業很多很多年,在我離職后,他下海創業,經歷5年,被百度收購,產品叫《安全寶》。
離開瑞星,我去了阿里巴巴,算是重新回到了搜索行業。在阿里巴巴主要都是搜索相關的工作。
主持人:看您曾在阿里巴巴設計并主導開發淘寶及天貓若干一線數據產品,可否介紹一下?
崔侖:我是2010年加入阿里巴巴,2015年離開,將近5年的時間,在阿里把把內經歷了3個部門。第一個是當時叫做淘寶研發部搜索中心,我們組的名字叫新引擎技術。我去入職的時候這個組只有一個leader,我是第1個組員,在我填寫入職表格時,第2個組員也來報到了。這倆人現在一個是蘿卜兔的CEO,一個是51offer的CTO。
在搜索中心主要做了2個比較大的項目,一個是淘寶的店鋪內搜索,就是在淘寶店鋪內的一切瀏覽操作,都要過這個搜索引擎。包括各種分類,過濾,按關鍵字搜索。在我們改進之前,這套系統用了大概150臺服務器實現,替換成我們的系統之后,僅用了不到30臺服務器。主要是實現了性能的提升。
之后,我們的隊伍不斷壯大,從三個人的團隊,一直到十多人的豪華陣容,開始改進替換淘寶網的搜索引擎(淘寶都管它叫主搜索)。同樣,一年之后,主搜索的性能也大大的提升。在搜索中心,每天主要是跟磁盤/內存/cpu死磕,想方設法的榨干服務器的每一點資源。但是,當時的數據量雖然很大,我們這一幫做c語言出身的人,并沒有使用任何的云計算技術。每天任務最繁重的索引Build工作,雖說是在多機的集群中完成的,但調度基本靠腳本+nfs。
之后,2013年,抽調了一部分人去阿里媽媽事業部,去改進淘寶直通車的引擎。直通車的引擎跟搜索引擎非常相似,但是沒有分詞,內容update頻率很高,可靠性要求也相對于搜索引擎更高(因為涉及到錢)。這次,我們在重新設計引擎,提升性能的同時,也讓我開始接觸到了云計算。首先,離線build工作在hadoop上用streaming job方式實現,build速度實現了質的提升。另外,也讓我見識到了在hadoop、odps、storm等大數據處理框架的實力。就拿索引更新來說,在2013年時,廣告引擎的實時更新,已經可以做到秒級。同時,也讓我從側面見識到了云平臺的潛力,比如對點擊日志的分析,復雜的模型,數千臺服務器,運行好幾個小時,計算出的結果對直通車引擎的效果提升奠定了堅實的基礎。
主持人:您決定加入星圖數據開始數據方面的創業是看到了什么發展機遇么?最初的想法是怎樣的?
崔侖:我和星圖數據的一個創始人(Melvin)中學6年是同學。他在2013年底就找我想一起出來創個業,但那時我因為個人原因,無法從阿里出來,于是就幫忙介紹之前的朋友,同事,希望能來跟他一起做。但是一直沒有能夠對上眼兒的。反倒是我自己,在不停的接觸中,了解了星圖數據,知道了他們是怎樣一批人,在做怎樣的事情,偶爾還會來跟星圖的工程師一起討論、解決些問題。當時,我在阿里也剛剛接觸到大數據的概念,覺得這個東西挺有意思的,自己也有一些云計算的開發經驗,所以一直關注著星圖。
2015年初,我跟另外一個中學同學,決定一起出來做一些事情,于是立即從阿里辭職出來。但我們都沒有運營公司運轉的經驗,于是毫無懸念的失敗了。同時也發現,目前大部分火熱的互聯網產品,至少在初期,技術只是輔助,產品和運營才是最重要的,而我作為一個開發了10年底層應用的程序員,能夠讓我發揮價值的初期項目是在是太少了。這時我意識到,星圖就是這樣一個技術導向,有一定基礎,又跟著大數據的概念,能夠體現我的價值的公司。于是很快,就加入了星圖數據。
主持人:目前星圖數據的情況以及技術團隊構成,請介紹一下。
崔侖:星圖數據從創立到現在大約2年時間,目前團隊有50人。我們以大數據產品為媒介,幫助每一個企業和海量信息對接,提供場景化的數據應用。現在我們的主要客戶集中在傳統制造企業,以及一些零售流通企業。我們現在提供的產品有三個應用方向,DaaS,供應鏈金融,C2B解決方案。
目前星圖數據技術團隊大約占7成,戰斗力很強。大家在官網上看到的產品目前都使用php開發,簡單而高效。后臺的離線數據處理部分用到了不少目前比較流行的框架,比如hadoop /kafka/spark/spark streaming之類。我們的數據處理集群,目前有超過100臺服務器,并且在未來一年內,這個數字預計還會翻番。
主持人:麻煩您簡單介紹下星圖數據目前提供的產品吧。并從具體產品適用場景來闡述一下。
崔侖:我們現在主要有幾個業務方向,其中已經產品化的是DaaS產品線,以不同的數據應用在不同的場景解決商業問題。我們提供了3個在線DaaS產品。D-Matrix、AtomPower 、SkyScope。分別用于宏觀數據分析,微觀數據分析,線上渠道巡檢。為決策團隊,營銷團隊,渠道管理團隊提供不同場景的數據服務。
另一個方向是供應鏈金融方向。就是零售商信用評級和貨品估值服務,幫助零售商獲得供應鏈融資。這個在媒體上已經有所報道,我們已經開始在和京東金融合作。
第三個方向是C2B解決方案。就是消費者驅動的產品設計以及精準至個體的回溯式營銷。現在市場上有很多廠商都正在嘗試C2B模式的產品設計,但是我們可以很負責任的說,我們已經和知名的多家制造業巨頭合作將C2B產品落地,預計明年就會面世,大家可以期待一下。
主持人:星圖的產品有什么獨特之處?也就是和同類產品競爭優勢有哪些?
崔侖:首先,線上零售數據領域,沒有我們同類的產品。
傳統的線下咨詢和市場調研公司和我們一樣,也會提供市場信息的線下采樣數據報告,而我們提供的是線上全網實時動態數據。宏觀可至市場份額,微觀可至單SKU的量價額單用戶的個人偏好。
另一方面,我們和新興的互聯網數據公司也不一樣,我們的所有產品服務都帶有行業邏輯,因為我們的創始人團隊都在零售行業混跡多年,非常了解傳統企業的痛點。于是我們的產品都設計成面向業務決策人員,無需單獨部署的云端數據應用。
主持人:請介紹一下雙十一你們做了哪些監測?從雙十一的活動數據中,得出了哪些有意思的結論么?
崔侖:今年雙十一當天,我們監測了全網18家主流B2C平臺的銷售情況數據。其實這也是我們平時監測的數據,只是在雙十一當天,我們將監測頻率提高,進行直播。直播時,我們的監測數據大約延遲2小時。
我們監測到今年雙十一線上銷售總額1229.4億。我們也看到了一些有意思的現象。比如我們發現很多新興互聯網品牌正在崛起,發展趨勢非常恐怖,很可能在不久的將來,某些新興品牌可以和現在的知名品牌一爭高下。
同時,我們發現相比2014年雙十一,客單價下降了10%,這表明網購的趨勢呈上升的態勢,用戶的消費習慣更向線上轉移。
今年雙十一全網銷量最高的品類是手機,賣出了712萬臺,10年以前,手機僅僅作為一個日常使用的工具,電話短信。而現在,手機的更新換代速度很快,使其已經顯示出了快速消費品的特性。712萬臺手機是什么概念,從這些手機里提煉黃金,能提煉出200公斤。
還有一些有趣的數據,在之前星圖雙十一直播發布的大圖中展示了,大家可以去搜索一下。
主持人:雙十一的直播僅有星圖一家在做?技術與去年雙十一相比有哪些提升?
崔侖:雙十一的數據直播,除了天貓做了自己平臺的,全網的數據直播只有我們星圖數據在做,并且今年已經是第二年做這個事情了。
今年雙十一,首先我們監測的平臺增加,需要分析的數據量增加。2015年互聯網創業非常火熱,也出現了很多新晉的電商平臺,我們在雙十一直播時,也將這些平臺納入我們的數據源,同時,網購消費的上漲趨勢我們也納入了更多的熱點品類。總體采集的數據量比去年翻了幾倍。(目前我們日常采集每天5T,雙十一采集的數據相對較少,每一輪大約400-500G,但是輪數很多)
另外,我們對數據的處理效率大大提升了。在今年,我們的系統進行了很大的改進,引入了很多目前比較先進的技術。比如Kafka,Spark,同時,之前使用的hadoop 系統,也進行了很大的優化,這直接導致我們的數據處理效率大大提高。去年這個時間點需要計算兩小時的數據,在今年只需要10到15分鐘。
最后,今年雙十一對數據的采集頻率變高。去年我們采集的頻率大概為1天8次。今年,因為數據處理效率大大提高,雖然采集數據量翻了幾倍,我們仍然能夠提高采集的頻率,達到了12-15次。
主持人:那么流化數據處理體系有什么樣的優勢呢?
崔侖:在今年,星圖的數據處理架構進行了比較大的改進。主要是引入了kafka消息隊列和Spark Streaming框架。整個數據處理過程,實現了流水線作業。我來介紹一下完整的數據處理流程。
首先,我們有一個url地址庫,里面保存的是所有單品的url,每一輪的采集,都由這個地址庫觸發。這里解釋一下,各平臺的列表頁是單獨維護的,并不在常規的采集系統內,這是為了確保采集系統能夠定時定量完成采集。
之后,是一個URL采集調度系統,每次啟動時,從URL庫中加載所有要采集的地址,并根據采集總時間,URL所屬的域名進行分布打散,形成一個列表,哪個時間點,要采集哪些URL。 然后根據這個列表,按時將需要采集的URL送入Kafka中的URL隊列。
Spider程序通過Kafka的URL隊列消息,能夠立即獲取到需要采集的URL,下載頁面。經過簡單的轉碼、壓縮等操作,附加上采集的時間狀態等信息,將這些信息送入Kafka中的另一個Page隊列。
對于Page隊列的處理,有兩個分支。都運行在Spark Streaming中。
其中一個分支負責生成下級的url。比如現在很多的網站大量的采用了AJAX,那么單品頁很可能不包含某些關鍵信息,比如價格、促銷等。那么在這里,需要計算生成單品的價格促銷頁面的url,送入Kafka的url隊列中,供spider程序抓取。
另一個分支從Page隊列獲得網頁原始信息,準實時地保存到hdfs上。
之后,運行在hadoop和spark上的數據處理ETL流程會定時啟動,將采集系統獲取的數據統一處理,各種統計分析,生成最終的結果。
主持人:iNebula(數據采集系統)和WarpEngine(數據處理系統)的效率提升了多少倍?
崔侖:數據采集系統,在雙十一直播中,如果只從采集時間上看,提升了5倍以上。我們將網絡出口進行了統一管理,充分利用了我們的網絡帶寬。并且在提高效率的同時,還大大精簡了服務器的數量。
數據處理系統效率大約提升了8-10倍。這個原因也有很多方面。首先,最簡單直接的是在星圖在這一年,隨著公司不停的發展,服務器數量翻了一番。另外,今年雙十一的數據處理,已經100%在云計算框架下運行,得益于hadoop和spark的高效,使我們有了這樣的成績。
主持人:技術方面,為什么采用Kafka?優勢是什么?
崔侖:Kafka很適合在我們的流水線中作為“線”來使用,作為各個模塊之間的數據交互工具。它的吞吐率非常高。并且,Kafka還具有水平擴展能力,可以按需求增加節點,擴充容量,或進一步提高吞吐率。
同時,Kafka對于現有的流行的分布式處理系統都有非常好的兼容性,比如在Spark、Storm應用中,都只需要很少的代碼就能夠與Kafka完美地集成。
主持人:每日完成對5TB數據的處理背后的技術支撐是什么?
崔侖:首先,我們的技術團隊非常給力,能夠使內部的產品、工具快速升級迭代。同時,大家對現有的先進技術,都會去接觸嘗試,如果有適合我們的東西,都愿意拿到我們的系統里來。
像Spark Streaming,Kafka這樣的東西就是這樣引入的。
有人會問為什么不用Storm,而選擇Spark Streaming。Storm 處理數據更實時一些,可以做到1秒以內的延遲。但是星圖目前的使用場景,都是離線數據處理,對數據延遲的要求并沒有那么高。另外,在使用Spark Streaming之前,我們就有Spark集群在用于生產服務。主要是做一些情感分析,模型推演等算法相關的事情。所以,最終選擇了Spark Streaming,對數據進行“準實時”處理。
主持人:對于數據挖掘領域的未來發展前景,會是怎樣的,談談您的看法?
崔侖:我覺得大數據未來的發展方向應該是行業垂直化。在去年到現在的O2O大戰下,租車、約車、美甲、按摩、家教、外賣,這些以前同城交易網站通吃的類目,都被不同的垂直APP切了下來,一個APP只做一個品類,所有的需求都按照這個品類的行業特性去訂制,給用戶極致的使用體驗。我們認為數據挖掘領域未來也會更加垂直化。
我們做電商行業的數據挖掘,把線上大量的不同數據源匯聚到一起,然后有在零售咨詢行業經驗豐富的數據科學家帶領分析團隊,根據零售業的特性,設計模型,分析數據,得出最靠譜的結論。10多年前,百度有個電視廣告,唐伯虎對著一個老外說“百度更懂中文”。我相信我們現在可以對一些線上數據挖掘公司說“我們更懂零售”,同時,也可以對傳統的咨詢公司說,“我們更懂互聯網”。
主持人:看到您對于數據挖掘及安全等方面都有多年的技術一線經歷,請結合您自己這一路技術之路上的提升談談技術人該如何做到高效學習和提升技能?
崔侖:我一直認為做技術是一個靠經驗吃飯的活兒,沒有什么速成之道。之前在阿里巴巴的時候,每年校招都很熱鬧,但最終能夠面試通過留下的,總是那么一兩個學校占了很大比例。我也經常和他們聊,他們在學校的時候,都有大量的項目實踐經驗,甚至本科都有實際的項目。項目經驗加上學校里那種學術氣氛,讓他們迅速的積累了經驗,進入公司能夠很快上手,馬上投入生產。
我覺得學習技術上,有些細節的東西,需要深入研究。比如精通C語言的人,一定非常清楚數據結構在內存里是什么樣子的;做通信模塊的人,一定對select/epoll的原理及優缺點非常了解;做互聯網前后端的人,我相信都對HTTP協議非常了解,都能夠用telnet訪問一個不加密的web服務器吧。雖說有這么多方向,但這些技術其實都是相通的,不會說我花了很多時間精通了這樣一個東西,以后萬一跳槽或者轉型就沒用了。
另外,現在有很多新鮮的平臺、工具。像Spark,看到網上很多人拿出來說我們用了它,但是真正自己用的時候,又發現網上的資料很少,或者說都是些太基礎的,甚至僅僅是個HelloWorld。我覺得這樣的新鮮事物需要拿過來自己動手試一下,這些都是別人為我們做好的工具,嘗試了才知道怎么用,遇到場境,才能自然而然的想到用它們。
主持人:請結合您的切身體會談談一名合格的CTO或技術團隊管理者應該是怎樣的?
崔侖:我覺得技術團隊的小伙伴們都比較單純,所以和它們首先要以一種隊友的心態去相處。作為一個團隊的帶頭人,首先要對所有的產品線都深入了解,根據產品的使用場景,時效性要求,穩定性要求等方面,選取最適合的技術模型。其次,要能夠給團隊明確的指出方向。當然,不是每一次的決策都是正確的或者是最優的,失敗了勇于承擔責任,對于個人來說,這也是一種經驗,一種技術積累。
另外,對系統的可讀性可維護性還有文檔不能放寬要求。很多人都能感受到,尤其是在創業公司中,人員的流動性相對于BAT來說,要高很多。每一次工作交接,都認真對待,仍然難免有遺漏,在員工離職后還需要麻煩人家講解系統中的一些細節。
最后,還要有一些長遠的考慮。雖然我們不能像那些國際巨頭一樣,一個系統做出來,幾年都不需要重構,但看到產品半年的發展應該還是可以的,該預留的接口預留出來,不能頻繁的對系統重構。
主持人:技術團隊的績效該怎么做才相對合理?能結合您過往的一些經歷展開談談么?
崔侖:星圖數據目前沒有嚴格的績效考核標準,我覺得目前高速發展的狀態不應該再給團隊成員更大的壓力。小伙伴們都很拼,勞逸結合。比如雙十一之前大家都很忙,各種為雙十一訂制的系統和工具需要開發和完善的測試。現在雙十一過了,工作任務相對來說輕松一些,讓大家有時間靜下心來,研究一下自己感興趣的技術。
我在來星圖之前,在三家公司工作過,感覺績效考核最嚴格的是阿里。原則上是強制的2-7-1分配,即2成超出預期,7成符合預期,1成未達到預期。雖說有些嚴苛,但是也給了大家動力,制造一種緊張競爭的氛圍。但是我覺得在規模較小的公司里這樣的規則并不很合適。對于正處在高速發展期的公司來說,人才是最寶貴的,并且我一直認為,相對于大團隊來說,小團隊的工作效率更高,凝聚力更強,相對的產出比也就更高。所以我覺得在創業公司,績效需要人性化一些,靈活一些,以鼓勵和引導為主,畢竟大家都是做了那么多年技術過來的,誰沒有個犯懶的時候。
主持人:對想在技術路線上走得更遠的人,您都有什么建議和忠告?推薦一些您覺得非常不錯的資料或者書籍吧。
崔侖:走技術路線,我想大家都會有一個自己的目標或者說是夢想。有人研究網絡安全,夢想就是當一個黑客;有人研究底層的破解調試技術,可能是夢想著能夠在內存和匯編代碼中游走;有人研究各種前端技術,夢想著做出最炫酷的界面。我想說的是,大家做技術這行,必須要問問自己,真的喜歡做技術嗎?還是因為這個行業工作好找,薪水不錯,所以硬擠進來的。
我在阿里的時候,因為有了創業的想法,曾經去某培訓機構咨詢過IOS/Android開發的速成班。發現他們標榜的就是只要培訓班畢業了,就能找到月薪多少的工作。我覺得這是不靠譜的。沒有興趣,沒有目標,為了拿工資而做技術,是沒有發展前景的。所以我想說,要做技術,堅定的走這條路,首先問問自己,想要成為一個什么樣的人。
對于書籍和資料,現在技術類的資料在網上非常多,但個人感覺在檢索資料,尤其是代碼相關的資料時,百度不太好用。百度很懂中文,但英文和代碼它不太懂。試試google和bing吧。另外,我不太建議直接拿資料來看。通常,我要是初步了解某一個新鮮的技術,會先看看資料,對功能特性有些大概的了解。如果在項目中使用,會先做一些測試程序,在實踐的過程中再去查資料,我感覺這樣效率更高。
在網上找資料,其實基本靠搜索引擎和論壇。10年前有個技術論壇叫“大富翁論壇”,當時感覺很有意思,以delphi為主,純做技術的討論,讓我印象深刻。但是后來delphi不行了,論壇也隨著衰敗了,慢慢被CSDN這樣的綜合技術社區取代。另外,還出現了一些像stackoverflow, segmentfault這樣名字蛋疼但是專門解決問題的論壇,很多開發過程中遇到的問題都能夠找到答案。
關于書籍,其實近幾年看得很少,一是線上資料越來越豐富,再一個是現在的新興技術,書籍出版往往會落后于線上穩定版本,看書的話總是看到舊的東西。所以新技術主要還是靠網上的資料,和跟其他使用者的交流。如果看書的話,我覺得還是看些基礎的,持續時間比較長的。
最后,我為剛剛走入技術領域,準備未來在技術領域一直走下去的同學推薦一本書吧——《Unix網絡編程》,一般大家都管它叫UNP。我工作10年,大部分時間是和C語言還有linux打交道。我現在還清楚的記得,10年前,在tom.com的辦公室,桌上放著幾本公用的《寶典》。現在的網絡服務器是linux的天下,不管你是做內核,做通信,做算法,做后臺,通讀寶典,受益終身。
互動環節:感謝崔大牛! 首先很贊您說的做技術的態度。然后我想問幾個問題, 您還記得當時你們榨干機器的每一滴內存的一個例子嗎?很感興趣! 另外, 很多信息在網頁上是沒有的, 比如交易量, 你們是單獨靠淘寶網頁上那個賣出多少來計算嗎? 還有每個網頁結構也可能變化, 是怎么知道哪一個dom是放你們所需要的信息的? 另外,這次雙十一有沒有出現系統意外,大家零時救火?謝謝!
崔侖:當時我們在做搜索引擎的時候,因為淘寶的站內搜索,相對于網頁搜索更新速度非常高,所以基本上全靠服務器的cpu和內存,而同時又需要做持久化的工作。所以使用了mmap,并且調整了內核參數,將數據鎖定在內存中,不換出。另外,使用了各種調優工具,測試cpu cache命中率等參數,一點一點調整程序結構,作出最優的方案。
星圖采集的數據不僅僅有網頁內容,還會有一些其它的手段,比如分析用戶的評論時間,通過模型獲得交易量等網頁上沒有顯現出來的信息。我們在公司內部有一套分析頁面和選取dom或者說 xpath的工具,能讓模版維護人員很方便的選取需要的html 節點,對分析系統的模版實時更新。這個目前已經是很成熟完善的技術了。今年雙十一技術部門雖然值班了50多個小時,但是系統總體表現比較淡定,沒有出現什么意外情況。因為大家做足了準備。
互動環節:傳統制造業應該通過哪些方面和大數據對接啊?
崔侖:傳統制造業外部需要鏈接海量的市場信息,但是海量信息價值密度非常低,需要用大數據驅動的工具幫助他們抽取信息中有價值的部分。當然這對于每個業務部門都不同,所以需要根據業務邏輯來為他們提供場景化的數據應用。
互動環節:想問下下分布式數據結構在零售上的應用。
崔侖:零售是指線上交易嗎?阿里的所有交易系統,在好幾年前就已經運行在分布式系統了。分布式系統對于實時處理海量的實時交易是必不可少的。
互動環節:雙十一全網銷量最高的品類是手機?完全沒想到。
崔侖:按照我們的品類劃分,和監測狀況,數據分析的結果排名第一確實是手機類目。家電這個大品類的銷售比手機略高。但是家電的子類目太多。
互動環節:對技術有興趣,但是小公司業務還不需要那些大型的架構系統,就算簡單了解學習了高新技術也沒有實戰的平臺,也難有深造。這點對我們技術方向的來說怎么去衡量,屬于技術職業發展的問題。
崔侖:確實,創業公司能夠接觸到海量數據的不多。但是隨著業務發展大數據的處理必不可少。對于個人來說,可以去BAT,或者到星圖這樣有大數據氛圍的公司嘗試一下。
阿里和支付寶的交易系統都是自主開發的定制系統,云計算平臺,消息流處理,都非常復雜,可以查閱一下阿里相關的資料。