動態數據倉庫漸興起 推動BI走到前端
數據倉庫技術自誕生至今,經歷了五個發展階段。第一個階段就是利用批處理技術,把機構內不同來源的信息集成到一個單一的倉庫中,形成報表,為公司跨職能或跨產品的決策提供重要參考。而在數據倉庫應用的第二階段,決策者關心的重點發生了轉移,從單純的“發生了什么”轉向“為什么會發生”,這個階段數據倉庫所做的工作主要是分析。分析活動的目的就是了解報表數據的涵義,需要對更詳細的數據進行各種角度的分析。第二階段的數據倉庫對數據庫要提交的問題事先一無所知,采用的方法主要是隨機分析。而當一個公司的決策過程得到量化以后,對經營動態的情況以及這種情況為什么發生都會有所體驗,下一步就是要將信息用于預測了。很明顯,掌握公司即將發生的動向意味著更為積極地管理和實施公司戰略。數據倉庫發展的第三階段就是提供數據采集工具,以便利用歷史資料創建預測模型。
而數據倉庫演變的第四階段就是動態數據倉庫。從第一到第三階段的數據倉庫都以支持企業內部戰略性決策為重點,第四階段則重在戰術性決策支持。數據倉庫對戰略性決策的支持是為企業長期決策提供必需的信息,包括市場細分、產品管理戰略、獲利性分析、預測和其他信息。戰術性決策支持的重點則在企業外部,為執行公司戰略的員工提供支持。隨著動態數據倉庫在決策支持領域中的角色越來越重要,企業實現決策自動化的積極性就越高。在人工操作效果不明顯時,為了尋求決策的有效性和連續性,企業就會趨向于采取自動決策。這種對自動化決策提供支持的數據庫就是目前數據倉庫技術發展的最高階段,即第五個階段。
動態數據倉庫支持運營智能
在近日舉行的2007 Teradata 數據倉庫峰會上,記者發現,目前,動態數據倉庫正在得到越來越多的認可和應用。因為,企業競爭的加劇,使得企業希望不僅能制定出好的長期戰略,還要能通過運營過程中一個個小的執行層面的恰當決策來保證戰略的實現。
Teradata公司首席技術官寶立明先生認為,傳統的數據倉庫技術重點用于支持企業決策者的戰略智能,它對實時性的要求相對低一些,而動態數據倉庫技術則重點用于支持企業一線員工的運營智能分析,它對數據的實時性要求更高。
動態數據倉庫有兩大特點,一是動態訪問。它是指一線用戶可以動態,或者說實時地訪問他所需要的信息。傳統數據倉庫用戶只針對高端管理層,一個銀行也許是有幾十個到幾百個用戶可以訪問。而成千上萬的客戶經理和客戶代表如果要實現同時訪問,對傳統數據倉庫來講是一個很大的壓力。所以動態數據倉庫采取相同的技術架構, 卻使用不同的技術手段,從而實現動態訪問。
二是動態數據加載。傳統數據倉庫的數據加載與動態數據倉庫的數據加載所需的技術設施幾乎相同。不同的是傳統的數據加載不是實時和連續的,只能是以批量的形式加載。而動態數據倉庫的數據則能連續加載并實現一分鐘或者幾秒鐘間隔的近實時加載,從而體現動態。
因此,一般而言,動態數據倉庫的“運作”是指為現場當時決策提供信息,例如及時庫存補給、包裹發運的日程安排、路徑選擇等。許多零售商都傾向于由供貨方管理庫存,自己則擁有一條零售鏈和眾多作為伙伴的供貨廠商,其目的是通過更有效的供貨鏈管理來降低庫存成本。為了使這種合作獲得成功,他就必須向供貨商提供有關銷售、促銷推廣、庫內存貨等詳細信息的知情權,之后便可以根據每個商店和每個單品對庫存的要求建立并實施有效的生產和交貨計劃。
以物流行業為例,統籌安排貨運車輛和運輸路線,這需要進行非常復雜的決策。常常需要將一輛卡車上的部分貨物轉移到另一輛車上,即重新進行配載,以便以最高的整體效率送抵各自的目的地。當某些卡車晚點時,就要做出決定:是讓后繼的運輸車等待遲到的貨物,還是讓其按時出發。如果后繼車輛按時出發而未等待遲到的包裹,那么遲到包裹的服務等級就會大打折扣。反過來說,等待遲到的包裹則將損害在后繼運輸車上其他待運包裹的服務等級。
在金融業,動態數據倉庫的應用主要是預先預防和控管某些風險,而不是等到風險發生之后再報告,從而將原來的被動管理轉化為現在的主動防范。金融行業動態數據倉庫的一個應用實例是上海證券交易所,除了風險控管,還涉及到交易行為是否合乎某些規定的問題。上證所通過對數據的分析和整理來判定自己的交易行為,或者是客戶的交易行為是否符合法律法規的要求,就也是動態數據倉庫合規性的一種體現。
物流行業應用
在物流行業,有一個重要的服務,就是實時查詢功能,它不僅可以讓客戶隨時知道自己的包裹已經送到什么位置,更主要的是可以幫助物流企業隨時調度,實現資源的最優配置。而這就需要利用動態數據倉庫技術的支持。
因此,無論是在國外還是國內,物流行業都比較早地應用了動態數據倉庫技術。在2007 Teradata 數據倉庫峰會上,中國郵政集團公司信息技術局技術推進部主任高軍和DHL首席軟件工程師 Karlo Borboa,都談到了他們應用動態數據倉庫的效果。中國郵政的第三代速遞系統采用了動態數據倉庫技術,用于追蹤包裹的去向。中國郵政采用ESB(企業服務總線)技術,將各各業務系統連接到全國中心,全國中心有6個數據倉庫節點,用于實施數據查詢。包裹從一點送到另一點,在提取包裹的時候要用掃描器獲取數據,提取之后把包裹放在運輸車上又要再用一次掃描儀獲取數據。每個環節都有獲取數據的過程,數據獲取后,只要幾秒鐘就可以進入全國數據中心的數據倉庫中,這樣工作人員就能獲得關于這個包裹非常詳細的信息,從而追蹤包裹的去向。目前,平均每天有50萬件包裹的行蹤在不斷被客戶查詢,而每次查詢的相應時間都在2秒鐘以內,并且每次查詢都可以提供20個以上的反饋條目。
另外,DHL的新一代擴展跟蹤查詢系統——NeXtt也同樣采用了Teradata的動態數據倉庫技術。目前這一系統已經覆蓋全球,從事件發生到進入數據倉庫,整個過程不超過15分鐘。首先,在事件的發生地捕捉數據; 然后傳送給分布在全球三個不同地方的報文服務器; 報文服務器每隔5分鐘就通過FTP的方式傳輸到數據倉庫的ETL服務器;最后數據經過清洗后即可加載到數據倉庫中,以供查詢。
【編輯推薦】