HDS工程師手記——用“數據”遇見可知的未來
引言
美國物理學會院士巴拉巴西的《爆發》,在***的時間、***的領域,討論了一個最古老的問題:到底應該用決定論的觀點,還是用非決定論的觀點,看待人類行為?作為復雜網絡研究的權威,巴拉巴西在大數據的新背景下,認為數據、科學以及技術的合力,會使得人類變得比預期中容易預測得多。就象泰勒格迪做到的那樣。在日趨精密的數字技術條件下,有了從四處搜集來的信息,我們不會再把人類的行為視為互不相關、隨意偶然的獨立事件。《爆發》作者的觀點:人類行為93%是可以預測的。例如,通過對大量數據的分析追蹤和預測每個公民的行蹤。比如電梯攝像頭拍到你11點20分離開了公寓大樓,那么10分鐘后在你家附近地鐵站的監視畫面中就很有可能搜尋到你。這并不只是科幻故事,而更可能是大數據時代人類真實的生存現狀。在大數據時代,通過對各種數據的充分了解,預測個體的行為可以變得非常容易。
遇見可知的未來
如果最變化無常的人類行為93%是可以預測的,那么,未來其它的事情是不是也可以預測呢,是不是預測的準確率也能達到93%呢。假設未來能預測93%,我們是不是可以認為我們的未來是可知的,我們能遇見可知的未來?
在不遠的未來,未來世界的預測準確率將超過93%,天氣能預測準確率能達到93%, 地震能預測準確率超過93%,疾病預測準確率超過93%,甚至股市準確率超過93%。我們的未來就是可知的未來。
有數據才能遇見未來
大家都對遇見可知的未來充滿期待,但怎么才能遇見可知的未來呢?這就是時下非常熱門的話題:大數據分析。大數據分析流程如下圖所示:
大數據分析流程
從上圖可以看出,對于大數據我們期待商業智能,就像我們想吃美味可口的食物,我們需要廚房(分析平臺),需要廚師(行業知識和分析算法),但最重要的是我們要有食材(數據),食材才是最根本、最重要的東西。我們要知道數據在哪里,并且知道如何從浩如煙海的數據中挑選出對我們有用的數據。例如食材很多,要能精確的挑選出哪些食材是做宮保雞丁的***食材。
傳統的數據倉庫技術,如BA存在了幾十年,但是它主要是處理結構化數據,主要提供商業分析,而現在發展為BI,Business Intelligence的英文縮寫,中文解釋為商務智能。BI最終展現給用戶的信息就是報表或圖視,數據集合就象玩具“魔方”一樣,可以任意快速的旋轉組合報表或視圖。從內容上BI除了包含結構化數據,還包含非結構化數據,如互聯網,社交媒體和物聯網(IOT)數據。這是大數據的特點。
IOT – 是Internet Of Things的縮寫,字面翻譯是“物體組成的因特網”,準確的翻譯應該為“物聯網”。物聯網(Internet Of Things)又稱傳感網,“物聯網”(Internet Of Things)指的是將各種信息傳感設備,如射頻識別裝置、紅外感應器、全球定位系統、激光掃描器等種種裝置與互聯網結合起來而形成的一個巨大網絡。其目的是讓所有的物品都與網絡連接在一起,方便識別和管理。物聯網的興起將帶來數據爆炸增長,也將對我們大數據分析和未來社會的預測產生影響。
數據處理的關鍵- ETL
使用數據最關鍵是數據梳理 – ETL。從浩如煙海的數據中,提取對我們有價值的數據和信息。ETL,(Extract Transform Load),它實現數據的抽取,轉換及裝載工作。ETL在技術上主要涉及增量、轉換、調度和監控等幾個方面的處理:
抽取:將數據從各種原始的業務系統中讀取出來。
轉換:按照預先設計好的規則將抽取的數據進行轉換、清洗,以及處理一些冗余、歧義的數據,使本來異構的數據格式能統一起來。
裝載:將轉換完的數據按計劃增量或全部導入到目標數據庫中。
現在的大數據分析中,ETL是基礎也是關鍵,HDS公司最近收購的Pentaho就能夠實現各種數據的ETL整合。如下圖所示:
從上圖可以看出,Pentaho可以將傳統的客戶信息,交易信息等結構化數據,ETL(PDI)到標準的DW庫中,也可以將IOT數據,地理位置信息(Location), 互聯網和社交媒體信息ETL(PDI)到規定的目標中,如MongoDB和Hadoop中,并且能夠集成傳統數據和新的社交數據,為大數據分析提供全新視角。
擁有大量的數據,我們可以遇見可知的未來,數據ETL加工、轉換、調度和處理是大數據分析的基礎,HDS的Pentaho能夠實現各種數據的ETL加工、轉換、調度和處理,為企業客戶大數據分析助一臂之力。