成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

企業大數據工作的任務、工具及挑戰

大數據
大數據的核心是數據,與大小無關,數據已經成為戰略資產。數據是人類活動在網絡空間的映射,蘊含人類生產、生活的規律,挖掘數據潛在價值,對國家治理、社會管理、企業決策和個人生活影響深遠。

隨著互聯網、移動互聯網和物聯網的廣泛而深入地應用,人類活動的蹤跡加快在網絡空間的映射,網絡瀏覽、行車軌跡、物等等均留下數據記錄。目前,全球數據呈現爆發式增長態勢,人類社會邁入大數據時代;全球每18個月新增數據量是人類有史以來全部數據量的總和。大數據的核心是數據,與大小無關,數據已經成為戰略資產。數據是人類活動在網絡空間的映射,蘊含人類生產、生活的規律,挖掘數據潛在價值,對國家治理、社會管理、企業決策和個人生活影響深遠。世界經濟論壇的報告認為大數據為新財富,價值堪比石油;商業版圖由此被重新劃定,通曉如何利用這些數據的企業將成為***者。

企業大數據工作的任務、工具及挑戰

0. 澄清基本概念

為了不在后面討論中因概念不清產生誤解,我們首先給出幾個定義:

  1. 大型IT企業:指對外提供IT相關的軟硬件產品及服務的公司,員工至少在萬人以上。
  2. 數據平臺:指大型IT企業用來為自身服務為主,擔負數據存儲、處理、分析業務和軟硬件綜合。主要針對內部服務,不對外開發。
  3. 數據分析:此處的數據分析師廣義的,包括一切基于數據得出的insights的行為,包括統計分析、機器學習建模和預測等。

1. 大型IT企業開展對內數據業務的驅動力

就目前而言,IT企業針對自身的數據分析業務可以分為廣告和非廣告兩類。對大多數企業而言,除了廣告之外的數據業務,并不能直接帶來可以量化的收入。但是,無論當前數據分析的結果為企業的現金流做了多少貢獻。數據為王的思想已然占據了眾多前沿企業間的頭腦。數據是礦山,insights是金子,有了礦山才能有金子,有了礦山,終究會有金子。

因此,開發數據業務最主要的驅動力,實際是對數據業務未來前景的積極預估。

主要應用有(除廣告之外):

  • 用戶畫像——越來越多的企業開始觀眾用戶畫像,畢竟知己知彼百戰不殆,賣東西先得了解買主。
  • 客戶保持——預測哪些現有客戶可能棄用產品或服務,即使采取措施挽留之。
  • 產品使用分析——DAU,MAU,PV,UV,CTR等等,這些看起來都是些簡單的統計數字,但卻是反應產品被使用情況的重要指標。
  • 產品推薦、銷量預測
  • 銷售指標……等等

企業大數據工作的任務、工具及挑戰

企業大數據工作的任務、工具及挑戰

具體到某一種應用,看似并不復雜,有些有成熟的方法可以用來訓練模型,還有些根本就是統計指標。似乎并不需要什么高深的算法背景。但一旦涉及實際,就不像看起來那么簡單了。即使是統計指標,也不像想象得那樣,隨便run幾個sql query就能得出來。

對于大型分布式系統,不同模塊的訪問log都有可能分布在不同的cluster上,單純收集每日全局log就是一個復雜工作,更別說之后的合并、去重、聚合等工作。

因此,大型企業的數據分析不是做個excel表,安裝一個免費mysql能夠解決的,而是需要專門的大型數據分析平臺。

2. 數據分析平臺通用架構

常見的數據分析平臺,至少包括數據存儲、處理和分析三個部分。

企業大數據工作的任務、工具及挑戰

2.1 數據存儲

數據存儲不必解釋,是一定必要的。但是如何備份是一個很重要的問題。 假設:某公司一年產生上千PB的數據。按照單純數據的存儲費用1美元/GB年計算,存1TB一年就是1000美元,一PB就是100萬,1000PB就是10億。如果就是簡單的使用hadoop的默認配置,每份數據都存3份,那么,這個實際產生數據x 3的體量將有多大?有將有多大的cost?

這是存儲層的挑戰。為了解決這個問題,一方面從硬件層面力圖降低存儲介質的價格,比如近年來冷存儲的提出,就是針對運維費用。另一方面就是尋找備份算法。例如,yahoo專門研發了一種圖片存儲算法,邏輯上是11個備份,但是size只有原size的1.x倍。

企業大數據工作的任務、工具及挑戰

2.2 數據處理

數據處理傳統上叫ETL、EDW,主要指數據的清洗、遷移和格式化。大數據平臺,由于應用范疇不同,自然多種多樣,源數據包括結構化數據和非結構化數據。但是如果數據真的是“大數據”(符合4V特征)的話,即使本身收集上來的數據是結構化的,也往往需要二次處理,轉換format或schema。

數據處理層所需技術相對簡單,然而挑戰在于對于數據的理解。如果不知道這個收集上來的log文件里面要提取出多少字段,每個字段對應數據源中的哪個部分,則數據提取完全不能進行。這就要求進行數據處理的人必須同時具備對業務的了解。

企業大數據工作的任務、工具及挑戰

2.3 數據分析

數據分析是數據中尋找價值的關鍵步驟。數據分析工作本身還處于初級階段。除了一些簡單的統計計算,大多數數據還是只能交給分析人員,進行沒有特別針對性的探索,效果難以得到保證。

對于這些挑戰,開展數據業務早的公司,相應的平臺和技術是在針對自身業務的過程中慢慢發展起來,部分公司選擇是將平臺外包或者自己開發針對自身業務的定制功能。相對于前兩者,數據分析師一個業務針對性更強的步驟,因此更難采用通用方法或手段解決,更加依賴企業自身的積累。

企業大數據工作的任務、工具及挑戰

3. 數據分析平臺開源框架

3.1 開源框架

目前,就國內而言,談到數據分析相關的開源框架,總不能忽略下面三個:

hadoop:batch,mapReduce

企業大數據工作的任務、工具及挑戰

storm:streaming

企業大數據工作的任務、工具及挑戰

spark:batch + streaming

企業大數據工作的任務、工具及挑戰

這些開源框架的共同特點是把重點放在并行計算框架上,關注的是job latency, load balance和fault recovery,對于資源分配、用戶管理和權限控制幾乎不考慮。它們基于的假設是:所有用戶都一樣,平權,所有用戶都能用所有的機器以最快的可能完成所有工作。

3.2 開源框架的局限

而在大型企業內部,不同部門,同一部門的不同job,絕對不是平權的。不同部門之間,也有很多私密的數據,不讓別人訪問。不同用戶的權限也是不一樣的。對于計算資源的需求,因為不同job的優先級不同,也要求予以區別。在這種需求之下,催生了一些第三方,專門提供hadoop等開源框架的資源、權限管理產品或者服務。hadoop在升級到2以后,也考慮一些數據隔離的問題。但其力度,恐怕難以滿足大多數大型企業的要求。這也是使用開源框架的無奈。使用開源產品的商業發行版,也是一種辦法。不過始終是不如企業原生系統在這方面的支持。

企業大數據工作的任務、工具及挑戰

3.3 企業原生框架

確實也有些企業獨立開發了全自主(不基于開源產品)的僅限于內部使用的分布式數據處理平臺。在用戶管理,數據訪問權限,存儲、運算資源管理等方面很下功夫。

例如:要求每個用戶在提交job前必須先申請token,有多少token,就有多少計算量。不同數據存儲路徑之間的權限完全單獨管理,使用者也要實現申請權限。

但是開發這樣的系統意味著企業必須具備非常強大的研發能力,并能承擔得起巨大的人力等資源的消耗。而且相對于開源系統已經實現的功能,難免有重復造輪子之嫌,即使是大型企業,也很少選取這種方案。

4. 大型IT企業數據業務的挑戰

4.1 通用挑戰:意識、技術和人才

4.1.1 意識

意識主要是指決策層的思想意識——數據對于企業發展是否真的必要?這一點在很多管理者腦子里還是存疑的,他們目前所處狀態很多是:聽說數據這東西有用,人家都在搞,所以我們也要搞,至于是不是真有用,搞出來看看再說。如果只是采用游戲或者試探態度,必然影響發展進程。但這也是沒辦法的事情,所有新事物都必須經歷這一過程。

企業大數據工作的任務、工具及挑戰

4.1.2 技術

技術指目前數據分析的技術,基本是采用新框架逆流支持舊接口的策略。曾經有一篇文章,名叫《NoSQL?NO,SQL》,說的就是這個。包括spark回頭支持SQL,也是如此。明明我們分析的是非結構化數據,但是因為高階算法的問題,卻連mapReduce都放棄了,索性回到SQL時代。為了讓更多人用的舒服,不去開發針對非結構化數據的新方法,而是反過來,向下兼容結構化。個人認為這是一種逆流。這樣做則永遠無法避免巨大的數據處理工作。

4.1.3 人才

“數據科學家”這個詞大家肯定都知道。可是,這個職位其實很模糊,不同公司,甚至同一公司的不同部門之間對這一職位的定義相差甚遠。有些數據科學家是學數學的博士,有些是以前做BI的,有些是PM轉行的,水平參差不齊。所以,恐怕在相當長的時期里,這會是一個門檻低,要求高的職位。很難短時間內批量涌現出優秀者。

4.2 特有挑戰:產品align

產品align是說每個產品的數據分析結果可以互相對比,也就是要求其定義和實現都一致。對于一個產品眾多的大企業而言,要求不同產品、流水線的分析報告具有可比性,這是一個很常見的需求。但是由于現在大多數企業中數據分析不是由一個部門統一管理,各個產品部門各自為戰,結果導致在align的過程中互相牽制,進而拉低了所有產品的分析水平。這樣的挑戰有賴于企業總體數據策略的制定和執行。而整體策略的制定和執行又有賴于前面所說的三點通用挑戰,環環相扣,顯然不能一蹴而就。

5. 大企業數據工作的發展趨勢

早期的數據分析工作,在實踐層面基本采用批處理模式。隨著業務的發展,對于其實時或者準實時(NRT)的需求越來越多。提供latency極短的增量分析和流式服務是眾多企業數據分析工作的當務之急。

從長遠考慮,真正擁有數據的是大企業,未來,大企業在數據的分析利用上,也必將全面勝出小企業。不過,處于不同成熟階段的大公司突破點各不同。有些技術先行,在分析方法和工具上成為領軍。另一些則傾向數據管理和治理,在管理層面上,在策略、條例的制定上為整個社會提供先進經驗。

責任編輯:未麗燕 來源: CIO之家
相關推薦

2018-03-20 13:32:22

數據分析IT企業數據存儲

2020-06-09 12:12:34

大數據安全數據泄露數據安全

2019-06-03 13:02:35

工業大數據工業互聯網大數據

2020-03-06 10:05:15

2013-09-25 13:47:35

Oracle甲骨文

2017-11-28 17:41:39

大數據

2019-01-03 14:39:47

工業大數據互聯網數字經濟

2016-12-01 19:07:46

大數據數據分析

2013-03-18 10:14:00

大數據小數據

2013-02-21 16:36:09

大數據

2018-06-20 09:24:29

2022-05-09 09:00:00

Splunk數據分析工具

2015-01-13 09:38:20

大數據數據孤島

2012-08-09 11:10:05

大數據數據中心

2018-12-12 14:57:17

大數據制造工業互聯網

2019-04-19 15:00:29

工業大數據數據分析企業

2016-12-02 19:42:34

大數據大數據產業

2012-05-17 10:08:52

智慧的分析洞察BAO大數據

2022-04-07 13:15:40

大數據大數據安全數據存儲

2016-11-09 15:23:44

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品a免费一区久久电影 | 久久精品播放 | 午夜欧美一区二区三区在线播放 | 日韩视频一区二区三区 | 久久这里有精品 | 一区二区在线不卡 | 欧美日韩在线一区二区三区 | 一区二区三区国产视频 | 日韩欧美国产精品 | 在线午夜 | 日韩欧美在线观看视频网站 | 国产精品爱久久久久久久 | 免费福利视频一区二区三区 | 一道本在线 | 天堂久久久久久久 | 午夜一区二区三区在线观看 | 久久久久久免费毛片精品 | 欧美日韩国产一区二区三区 | 天天操 天天操 | 一区二区国产精品 | 日韩色在线 | 国产欧美精品一区二区三区 | 亚洲日日 | 中文字幕日韩欧美一区二区三区 | www.男人天堂.com | 操人网站| 91av在线视频观看 | 亚洲精色 | 国产精品国产a级 | aacc678成免费人电影网站 | 99精品网 | 国产成人精品网站 | 97caoporn国产免费人人 | 久久精品一区 | 伊人精品视频 | 亚洲在线一区二区 | 亚洲欧美中文日韩在线v日本 | 久久久久久久综合 | 国产国产精品久久久久 | 最近中文字幕在线视频1 | 97caoporn国产免费人人 |