成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據創業,在多維數據分析模型的路上越走越遠

大數據
前幾天翻出了2012年2月在微博上發出的一條信息(圖1),當時我為什么會那么興奮,還得從更早的時候說起。

前幾天翻出了2012年2月在微博上發出的一條信息(圖1),當時我為什么會那么興奮,還得從更早的時候說起。



(圖1 2012年的一條微博) 

初次失敗

2010年初,有個地圖團隊的PM找到我,演示了一份PPT,那是某個公司的統計分析系統的對外交流材料。據說這份材料先是被廠長看到,覺得做的挺好,就安排下面的人看是否也能做一套。我看了之后,發現就是針對某個互聯網產品的流量、用戶量的幾個頁面展示,針對地域、渠道等幾個維度可以展開分析。心想這種系統在我們的Log統計平臺上很容易用幾個任務實現出來。但Log統計平臺是以統計任務來管理的,雖然功能強大,但是不利于展示上的組織。對于一個業務線來說,就是一組報表,并沒有層級管理。相比之下,PPT中演示的系統在界面組織上,就會好很多。我就給這位PM說,這套系統太簡單了,既然我們要做,就要比他們做的牛逼。我先考慮一下,然后給出一套方案。

就這樣,我和團隊的三四個兄弟開始考慮如何做一套牛逼的方案,調研來調研去,發現還是數據倉庫教材里介紹的數據立方體的模型,適合做這件事。于是拿著這套方案和PM溝通,PM聽了介紹之后,說要是真的可以實現,我們的系統就太強大了。就這么敲定了。那時的我一是會希望自己做的事情非常獨特,超越之前的任何方案,二是根本不會考慮人力是否能支持,***真正能投入到本項目的也就只有一個正式員工外加一個實習生。產品方案定了,接下來就是技術選型。

數據立方體是多維數據模型的一個通俗的叫法,主要由維度和指標兩部分組成,比如地域是一個維度,操作系統也是個維度,銷售額是一個指標,注冊用戶數也是個指標,成單量也是一個指標。那么我們就可以通過維度組合,看這種組合下的指標情況。如圖2:

[[154900]]

(圖2 數據立方體的樣例)

通過這個數據立方體,我們就可以看來自北京的,使用iOS的銷售額是多少。這個模型非常清晰和簡單,難點在于數據規模。我們針對百度的流量分析,可以拆開多個維度,比如時間、地域、渠道、操作系統、瀏覽器版本、頻道、行為類型等。每個單位時間內,所產生的數據條數就是所有維度的乘積,假設每個維度有10個項目,如果有10個維度,那么就會產生10^10 條記錄。每條記錄按1KB大小,那么就是10TB數據量。如果在這個基礎上做計算,一臺機器的性能是顯然撐不住的。

我們就在尋找適合在這種數據規模上進行查詢的存儲系統。找來找去,發現InfoBright這一存儲引擎最合適,它采用列式存儲,在針對多維數據分析這種模型上,性能很好。但因為是單機的,支持的數據規模有限,我們對某些維度的元素進行了聚合,來降低數據量,***降到半年的累計數據預計幾百G。就這樣,我們在半個正式員工、兩個實習生的人員配置下,開啟了整個項目。當時我是雄心勃勃,還把部門的高級總監邀請到開發群里,因為針對流量數據的多維分析,顯然部門老大是最需要的。兩個月后,悲劇發生了。

產品是做出來了,但多個維度的組合查詢性能一塌糊涂,我有時候在界面上做了個查詢,半個小時后都還看不到結果,根本沒法用,整個產品只能算個半吊子的Demo,連部門老大也退出了群。在我這工作的八年的職業生涯中,有兩個項目我認為是徹底的失敗了,一個就是這個cube項目,另一個是基于impala改進的一個交互式查詢產品,以后有機會再介紹。認識到性能問題后,我們又嘗試將查詢引擎從InfoBright替換到InfiniDB,只能說略好,但沒有本質區別。

順帶交代兩句這兩個存儲引擎的命運,InfoBright這家波蘭公司的產品,在這兩年轉型做針對物聯網的存儲引擎了。而InfiniDB在去年的10月1日宣布了破產??磥韯摌I公司純粹做一款數據庫引擎,日子并不會太好過。

出了存儲層的問題,還有查詢解釋層Mondrian的性能問題,以及報表引擎JPivot的性能問題,數據導入的性能問題,預處理數據的計算性能問題,數據字段變更的維護問題等??傊谝粋€不合適的時機,提出了一個比較理想化的idea,結果可想而知了。
 

漸入佳境

這次項目失敗后,我對數據立方體這種理論化的模型產生了懷疑,覺得在現實場景下走不通,作為數據倉庫教材里的內容講講幫助理解,還是可以的。又過了一年,成立了基礎架構部數據團隊,并從Google聘請了一位總監,就是開始我在截圖里提到的“硅谷知青” Alex Lv。他來百度之前,在Yahoo干過7年,Google干過5年,一直圍繞數據倉庫方向,可以說是這一領域的資深專家,Google的Tenzing引擎,就是他的團隊做出的。他來了之后,真的是把我的思路打開了一大圈,相比之下,我之前對數據架構的理解真的太狹隘了。

他先是給我們提出了數據分層的金字塔模型,決定構建Baidu Data Warehouse(UDW),能夠將用戶在百度所有產品線的行為統一到一起去。有了這個地基,剩下的數據使用問題,就變得容易了。

這就回到了文章開頭我發微博的那天,Alex Lv給我講解了在UDW基礎之上,將用戶數據按照時間細粒度匯聚,可以根據不同維度組合查詢,所有的報表需求都在這個基礎上出。相比之下,我們之前的報表數據,都是直接從原始數據,經過計算,生成統計結果,計算效率是很低的,中間數據沒有得到重復使用。

相比cube項目,常規報表數據是例行跑出的,而不是實時交互,這對查詢性能要求沒那么高。在UDW的基礎之上,數據立方體的思路我意識到竟然能很好的解決計算資源浪費的問題,驚嘆之余,發出了開頭的那條微博。

對于交互式查詢的需求,問題是一樣存在的。我們數據團隊是由兩個團隊合并創建的,一個是我所帶領的數據平臺團隊,一個是內部叫做Doris的分布式查詢團隊。Doris主要是解決海量數據下,使用MPP架構,滿足毫秒級的查詢問題(對外的百度統計以前就使用了這一系統)。如果能把它改造一下,能夠對接報表引擎,就可以滿足。

這個最重要的改造就是要支持SQL。這一思路在一位Google的架構師James Peng的加入,得以傳遞。Doris團隊的人員花了兩周時間,直接將Doris作為mysql的存儲引擎,這樣就實現了通過mysql直接訪問doris,支持了SQL語法。其實InfoBright也是這么一個實現思路。于是這樣查詢性能的問題也解決了。所有的核心報表,都通過數據立方體來實現,展現部分用了Oracle BIEE。

可以這么說,Oracle BIEE是我用到過了最爛的企業軟件,第二爛的是Oracle ERP軟件。雖然基于多維數據模型,實現了報表的基本需求。但是有兩個嚴重的問題,一是BIEE配置報表非常麻煩,即使規整好的數據,還在再建一層數據模型,多此一舉,界面操作非常復雜;二是數據的預處理即ETL工作比較復雜,數據源的變更,會導致結果出錯,ETL計算周期長,導致報表發送延遲。總之是能基本滿足,但不是特別的優雅。后來我們又開發了自己的可視化系統,解決報表展示問題。
 

發揮魔力

我在百度工作這幾年,一直很反對做半吊子的產品,像我前面提到的cube項目,就是半吊子的典型。是圍繞某個問題的一個解決方案,但這一解決方案很不成熟,用起來很不爽?!禠ean Startup》里傳遞的一種理念是要做MVP(Minimium Viable Product,最小可用產品),先做一個原型,投放市場,然后根據反饋,迅速迭代。而蘋果卻貌似反其道而行之的,不管是iPod還是iPhone,還是iPad,等它發布的時候,我們都發現它們是成品,直接就是有魔力的產品,有些人會把它們形容為驚艷。

在參加工作三年之后,我逐步找到了一個把產品做出魔力的感覺,盡管還不斷的失手,但越來越有自信了。至少有一點,我能保證我做出來的產品,一定是非常流暢的,讓人用起來不卡殼,即使這是一個to B的工具產品。這次創業可以自行操刀,更是期望哪怕少做兩個功能,也要把它做的有魔力。

因為創業是針對互聯網創業公司的,數據規模上肯定和在百度沒法比,另外,創業公司沒有歷史包袱,因此可以在數據源頭上去規范起來。做了七年的數據平臺,我總結的最重要的一點就是要把數據源處理好,如果源頭不好,后面即使用再復雜的算法,也不能做好。我曾經在百度花了一年半的時間,推動公司的核心業務線從打印的各種花樣的文本日志,轉變成直接打印二進制結構化的,后面的數據處理都變得容易很多。那現在從零開始,就可以直接和創業公司一起,把數據源頭規范好,把每一條的用戶記錄,規范成有多個維度的帶有格式的數據,就像數據庫里的一條標準記錄。再稍加處理,就能形成標準的多維數據源。

在這個多維數據源基礎上,進一步規范成多維數據分析模型,搭配上合適的存儲和查詢引擎,就能實現多種維度的交叉分析,但有在秒級響應。再將常用的事件分析、漏斗轉化、留存分析進行抽象,直接建立在這一數據模型之上。我們可能用過各種BI(Business Inteligence,商務智能)系統,見過數百張報表,紛繁復雜??墒轻槍τ脩粜袨榉治?,在這幾個簡單功能之上,就能生成五彩繽紛的報表。

 
(圖3 Sensors Analytics上的多維分析功能截圖)

當我向客戶介紹我們產品的底層實現時,都會感覺思路特簡單。但當用到我們的產品時,又感覺特別強大,又非常易用。可這簡單的背后,是花了大量的經歷去抽象功能,并打磨細節。有一位GA(Google Analytics)專家,對統計分析工具非常精通,尤其擅長GA。我的兩位合伙人和他交流之后,我問他們公司有沒有可能用我們的產品,兩個人都說不可能,人家都已經有了一套完整的現有方案,可沒過兩天,發來消息說決定要用我們的產品,我是被驚喜到了。在這創業的短短5個多月,10來個人的團隊,產出了20多萬行的代碼,而我只在開始的一個半月,光界面部分,就提交了100個bug,這樣才有了我們的Sensors Analytics 1.0(有興趣的可以到http://www.sensorsdata.cn/申請試用)。即使現在,我還在每天至少提交一個bug/feature。

我在朋友圈發了那條微博的截圖之后,Alex Lv回復說:為什么多維分析易說難做,你一定想明白了。

責任編輯:李英杰 來源: 愛數據
相關推薦

2020-10-16 16:00:50

Redis單線程數據庫

2019-07-31 14:16:35

大數據人工智能算法

2024-08-30 14:31:48

2015-08-14 10:28:09

大數據

2017-07-22 00:41:27

大數據數據存儲

2021-08-06 11:01:23

大數據數據分析技術

2015-07-23 09:34:57

大數據數據分析

2013-04-09 09:28:20

大數據大數據全球技術峰會

2018-04-26 14:11:44

2017-09-05 17:16:18

多維數據分析

2019-11-15 14:46:25

祼機大數據分析

2022-06-30 15:12:48

數據分析工具大數據

2015-08-11 15:52:52

大數據數據分析

2021-10-12 15:25:08

大數據數據分析

2022-03-29 14:49:14

大數據數據分析

2017-01-03 08:36:15

大數據關鍵模型

2017-01-11 14:58:50

大數據分析模型數據分析

2015-05-26 10:27:17

大數據分析電商平臺應用

2017-02-09 17:51:18

數據分析數據系統互聯網

2023-10-07 08:05:17

數據分析模型行為分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.亚洲精品 | 国产中文视频 | 成人免费在线观看 | 四虎成人免费视频 | 蜜桃传媒一区二区 | 91精品麻豆日日躁夜夜躁 | 国产一区二区三区 | 午夜寂寞影院在线观看 | 欧美一级欧美三级在线观看 | 中文字幕1区2区3区 亚洲国产成人精品女人久久久 | 成人1区2区 | 伊人91在线 | 国产高清在线视频 | 国产精品亚洲一区二区三区在线 | 97免费在线观看视频 | 噜噜噜噜狠狠狠7777视频 | 91亚洲精品久久久电影 | 国产精品久久久久久福利一牛影视 | 久久久91| 一二三四av | 一区二区三区四区视频 | jizz视频 | 美女黄网站视频免费 | 久久精品欧美一区二区三区不卡 | 青青草这里只有精品 | 国产高清美女一级a毛片久久w | 天天爽天天操 | 久久婷婷麻豆国产91天堂 | 夜久久 | 免费在线观看av片 | 国产亚洲欧美在线 | 欧美精品三区 | 日韩精品一区二区三区视频播放 | 国产一区不卡在线观看 | 国产999精品久久久久久 | 一本一道久久a久久精品蜜桃 | av在线一区二区三区 | 国产精品视频中文字幕 | 亚洲国产在 | 九九在线视频 | 亚洲国产精品一区 |