大數據在傳統行業引爆后如何落地
國慶期間,全國各處景點人滿為患,水泄不通。然而一些景點卻在爆冷門:10月1日五臺山人數比去年同期減少近3成,黃山全天游客人數只與雙休日水平相當。如果假期到來前,有相關數據預測各地景點人流量,大家即可提前做好準備,錯峰出行。事實上,在國慶假期之前,藝龍、同程等旅游網站已根據機票、酒店、景點門票預訂量出具相應的數據分析報告:熱門出游目的地中三亞最火爆,客流量最扎堆的城市是北京——大數據正悄然在我們身邊發揮著作用。
1. 傳統行業中的大數據應用
1)啤酒與尿布
美國沃爾瑪超市里,啤酒與尿布總被擺放在同一個區域,方便“奶爸”購物;類似的情況還有出現在同一貨架的方便面和火腿腸、口香糖和避孕套。這些貼心安排無不得益于超市供貨人員對客戶習慣的深刻解讀,也得益于大數據在大型商超、購物中心中的使用。在傳統購物中心向商業綜合體轉變的過程中,利用大數據對用戶喜好和用戶行為進行分析成為至關重要的一環。通常購物中心需要外部第三方數據來分析時下受歡迎的品牌、某地區人民的飲食口味、消費水平;同時內部數據,如相應時段的人流量、POS機的消費數據、cctv監控數據、購物產品清單數據等也顯得至關重要。
2)余額寶
余額寶自2013年6月上線后,僅用了半年的時間就使背后的天弘基金規模增長40倍。截止2014年3月,余額寶的用戶數量已經達到8100萬,超過整個中國股市中的活躍帳戶數。貨幣基金資產主要投資于短期貨幣工具,大規模的基金投資追求高收益,也要規避風險。通過大數據的支持,余額寶能夠預測到流動性的趨勢,適時做好流動性需求支持,合理規避風險。基金公司能通過支付寶提供的余額寶資金流動情況,通過模型預估流動趨勢,安排投資。而傳統行業沒有大數據支持,自然就失去了這樣的能力。
2. 大數據在傳統行業落地難
1)相關人員稀缺。既懂業務又懂數據的人,在互聯網行業中不難找到。而傳統行業中,數據和業務的結合通常非常松散。具備大數據專業知識的專家,顯然這個角色在傳統行業以往的運作過程中是缺失的。傳統行業的技術人員通常覺得大數據很潮很熱,但回答不了以下問題:能拿到什么數據? 這些數據有什么用? 怎樣用這些數據?
2)技術積累不足。在互聯網行業中應用非常廣泛的技術,傳統行業的技術人員卻接觸很少。在大數據的實際實施中,像hadoop、消息隊列、storm等這些大數據處理技術,傳統行業還只是停留在初步了解階段,能真正應用的比較少。
3)成本資金消耗。一些傳統企業在準備獨立做大數據應用的時候,發現實施的成本非常巨大,整個的IT方面預算的開支增加了1個甚至2個數量級,而這些投入是否能達到預期效果還不敢肯定。
3. UCloud云平臺的針對性解決方案
對于人員稀缺的問題,除了積極的引入相關人才和內部技術人員的培養,傳統企業也可以尋求外部合作。目前已經有很多企業在這些專業的領域內提供成熟的解決方案。UCloud,作為國內最為專業的基礎云計算服務商,也針對性地開發了大數據產品UDDP (UCloud Distributed Data Processor) 能夠幫助用戶輕松、快速地處理TB甚至PB級的海量數據。目前,UDDP正被應用于數字營銷、數據分析、商業智能、科學模擬等領域。
對于技術積累不足的問題,UCloud所提供的大數據產品服務可以有效幫助企業用戶降低技術門檻,規避掉復雜的技術細節。同時,UCloud的專業技術負責人也會為客戶有針對性的提供培訓課程,并不時在實際實施中進行技術指導,幫助用戶快速消除技術短板。
資金成本問題就更為簡單,使用云計算服務是降低綜合成本非常有效的方式。傳統企業通過使用云服務,復用資源,可以大規模降低大數據應用的成本。例如,使用UCloud的大數據產品,按每天計算數據在10TB來估算,每個月的成本大概也就在數千元。
4. UCloud大數據產品系統設計
在UCloud大數據產品的整體系統框架中,最下層是數據采集的接口,通過攝像頭、傳感器、各種日志、數據庫等采集數據,存儲在HDFS上。在存儲之上,我們支持兩種分布式計算框架,SPARK和MapReduce,針對不同習慣用戶使用。同時也會提供列式存儲HBase。
在數據之上,會有很多的工具支持,如基于Spark的Spark SQL、Spark Streaming、Spark Mlib等,以及基于MapReduce的Hive、Pig等。計算后的數據可以繼續存回HDFS,也可以輸出到DB或其它地方用作其它用途,在此之上建立各種業務模型使用。
在集群內,我們會對數據分析任務進行調度,充分利用集群資源。同時對集群進行監控,對任務失敗進行及時恢復,及時發現問題,并提供信息給集群日常維護。
(UCloud大數據產品系統設計)
5. 大數據在傳統行業中應用的未來
1)智能視頻監控
如今,智能視頻監控已經應用到很多地方。比如奧林匹克公園內設的智能計數和密度分析系統,可以全天候的對入口區域、人流通道等重要區域的人流狀況進行實時密度分析統計。
智能視頻監控,核心就是將采集來的視頻數據,按幀提取出來,應用到特征模型中進行匹配。然后將這些特征全部存儲下來,添加標識、索引,在需要的時候再進行檢索、或進行更深層次的分析。在這個過程中,我們需要視頻原始數據能很快能夠轉換成特征模型,同時也需要海量存儲去保存這部分視頻數據。技術的核心在于特征模型的選取、轉換的算法、海量數據的實時和離線分析能力。
特征模型的選取,可以通過和一線工作人員溝通把模型建立起來,也可以尋求一些模型庫。很多開發者社區里則有轉換算法的分享。UCloud對一些開發者社區提供資金、資源的支持,目的就是幫助開發社區沉淀經驗,以便為更多人提供幫助。而海量數據的實時和離線分析能力可以在內部搭建,也可以考慮使用專業的大數據服務,比如UCloud的UDDP。這樣智能視頻監控應用將會很容易落地。
2)醫療健康系統
未來的醫療健康系統或可借鑒身份證采集的模式,拍攝照片上傳到指定網站,然后辦理個人醫療證件。無論到大型醫院就醫,還是到社區醫院體檢,相關檢查數據都可以被傳輸到醫療系統。后續就醫時,醫生可以根據前期的體檢數據直接開藥,或者以這些數據為基礎為病人診斷。這樣即可大大提高醫生的工作效率,有助解決就醫難的問題。另外,這些檢查數據匯聚在一起后,可以供衛生防疫部門來做分析,提供更為完善的公共健康服務。也可以由個人委托商業機構追蹤個人生理情況,做事先預防、調養。
當然,醫療健康行業有一定特殊性,需要體制改革支持。需要在信息化上解決現有醫院個人醫療信息的孤島,再引申出來和大數據結合的個人、公眾醫療健康服務。
時代變革,從一開始就不可逆。互聯網誕生時,有人說過這樣一句話“在網絡上,沒人知道你是一條狗”。然而在大數據時代,我們不但知道你是一條狗,而且知道你是一直羞澀、前腿短的柯基,不愛吃狗糧愛吃肉,最喜歡粉色的小外套…..