數(shù)據(jù)集成的挑戰(zhàn)
在單一層面來看,數(shù)據(jù)集成問題在我們的現(xiàn)實場景中非常簡單,即從多種源獲取數(shù)據(jù),清理和轉(zhuǎn)換數(shù)據(jù),然后將數(shù)據(jù)加載到適當(dāng)?shù)臄?shù)據(jù)存儲區(qū)中以用于分析和報告。遺憾的是,對于一個典型的數(shù)據(jù)倉庫或商業(yè)智能項目,企業(yè)需要在其數(shù)據(jù)集成階段花費 60~80 %的可用資源。為什么會如此艱難呢?
技術(shù)挑戰(zhàn)
技術(shù)挑戰(zhàn)首先來自于源系統(tǒng)。我們正在從收集交易(如客戶承諾獲取、購買或以其他方式獲得東西)數(shù)據(jù)向收集預(yù)交易(如網(wǎng)頁點擊或通過 RFID 標(biāo)記追蹤客戶意圖的機制)數(shù)據(jù)轉(zhuǎn)變。現(xiàn)在不僅可以通過傳統(tǒng)的源和格式(如數(shù)據(jù)庫和文本文件)獲取數(shù)據(jù),而且正日益可以以各種不同的格式(從專有文件到 Microsoft Office 文檔以及基于 XML 的文件)和基于 Internet 的源(如 Web 服務(wù)和 RSS 流)獲取數(shù)據(jù)。***針對性的挑戰(zhàn)是:
◆多種源與多種不同的格式。
◆結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
◆在不同時間從源系統(tǒng)獲得的數(shù)據(jù)信息。
◆龐大的數(shù)據(jù)量。
在理想情況下,即使您能夠設(shè)法以某種方式在一個位置獲得所需的所有數(shù)據(jù),也會面臨新的挑戰(zhàn),包括:
◆數(shù)據(jù)質(zhì)量。
◆不同數(shù)據(jù)格式的識別。
◆數(shù)據(jù)格式轉(zhuǎn)換(轉(zhuǎn)換為業(yè)務(wù)分析可用的格式)。
假設(shè)您能夠通過某種方式獲得所需的所有數(shù)據(jù),并且可以清理、轉(zhuǎn)換數(shù)據(jù)以及將數(shù)據(jù)映射成為一種有用的格式。即便如此,您仍然可以不使用傳統(tǒng)的數(shù)據(jù)移動和集成方式。更確切的說,可以從一種固定的、長期的、面向成批數(shù)據(jù)的方式向不固定的、短期的、基于需求的方式轉(zhuǎn)變。大多數(shù)組織在“停機時間”使用一種面向成批數(shù)據(jù)的處理方式,因為在這段時間內(nèi)用戶不會在系統(tǒng)上發(fā)出大量請求。這種方式通常會在夜間、使用一個預(yù)先定義的處理時長為 6~8 小時的批處理窗口來執(zhí)行,因為此時辦公室里應(yīng)該沒有任何人。但隨著每種大小和類型的業(yè)務(wù)的日益全球化,實際的情況已并非如此。現(xiàn)在從全世界的企業(yè)來看,它們只有很少(如果有)的停機時間,而且無論何時總是有人會呆在辦公室的某個地方。
結(jié)果您發(fā)現(xiàn):
◆盡快加載數(shù)據(jù)的壓力日益加大。
◆需要在同一時間加載多個目標(biāo)位置的數(shù)據(jù)。
◆目標(biāo)位置存在多樣性。
您不僅需要實現(xiàn)所有這些任務(wù),還需要盡可能快地實現(xiàn)它們。例如在線業(yè)務(wù)就是一種極端的情況,
***,當(dāng)你既需要針對應(yīng)用程序整合的實時事務(wù)處理技術(shù)、又需要針對海量數(shù)據(jù)的集成技術(shù)來解決企業(yè)業(yè)務(wù)問題時,如何將數(shù)據(jù)緊密集成到公司的整體集成架構(gòu)中,就變得更加重要。
組織挑戰(zhàn)
在大型組織中進行數(shù)據(jù)集成存在兩大問題,這就是“權(quán)力”挑戰(zhàn)和“舒適地帶”挑戰(zhàn)。
“權(quán)力”挑戰(zhàn)
數(shù)據(jù)就是力量,通常要使人們相信數(shù)據(jù)是一個公司的真正有價值的共有資產(chǎn)很困難。要使企業(yè)的數(shù)據(jù)集成獲得成功,那么多個數(shù)據(jù)源的全部所有者都必須了解項目的用途和動向。有關(guān)各方缺乏合作是造成數(shù)據(jù)集成項目失敗的一個主要原因。行政部門的幫助、達成的共識,以及強大的數(shù)據(jù)集成團隊和多方相關(guān)人員是決定成功與否的少數(shù)關(guān)鍵因素,這些因素可以幫助解決問題。
“舒適地帶”挑戰(zhàn)
在以多種方式分析孤立的需求時,可以解決數(shù)據(jù)集成的挑戰(zhàn)。手動編碼解決了約60%的數(shù)據(jù)集成問題。可用于解決類似問題的技術(shù)包括從復(fù)制、ETL、SQL 到企業(yè)應(yīng)用程序集成(EAI)。人們總是傾向于使用他們熟悉的技術(shù)。雖然這些技術(shù)的功能有些重復(fù),而且或許它們也能夠獨立完成任務(wù),但我們可以優(yōu)化這些技術(shù),使它們能夠解決各式各樣的問題。當(dāng)嘗試解決企業(yè)數(shù)據(jù)集成的問題時,如果缺乏健全的體系結(jié)構(gòu)及適當(dāng)?shù)募夹g(shù)選擇,則可能導(dǎo)致失敗。
經(jīng)濟挑戰(zhàn)
本文前面概述的與組織和技術(shù)相關(guān)的問題,共同導(dǎo)致了數(shù)據(jù)集成成為任何數(shù)據(jù)倉庫/商業(yè)智能項目的最昂貴部分。導(dǎo)致數(shù)據(jù)集成成本增加的主要因素是:
◆以數(shù)據(jù)集成必需的格式來獲取數(shù)據(jù)的過程,最終變成了一個充滿組織權(quán)力游戲的緩慢而曲折的過程。
◆清理數(shù)據(jù)以及從多種源將數(shù)據(jù)映射為一種連貫的、有意義的格式極其困難。
◆標(biāo)準(zhǔn)的數(shù)據(jù)集成工具往往不能提供足夠的功能或可擴展性來滿足項目的數(shù)據(jù)轉(zhuǎn)換要求。這可能會導(dǎo)致需要對為了完成任務(wù)而開發(fā)特殊ETL代碼所發(fā)生的咨詢費用支付巨額金錢。
◆公司的不同部門都在關(guān)注數(shù)據(jù)孤島中的數(shù)據(jù)集成問題。
當(dāng)需要集中解決這些問題時,這些數(shù)據(jù)集成方面的努力所引起的額外費用將會納入全企業(yè)范圍的數(shù)據(jù)集成體系結(jié)構(gòu)。
隨著組織發(fā)展過程中對數(shù)據(jù)入庫和商業(yè)智能需求的增加,有缺陷的數(shù)據(jù)集成體系結(jié)構(gòu)將變得越來越難以維護,總體擁有成本也會激增。
這種企業(yè)必須持續(xù)集成數(shù)據(jù)。但是,實際的批處理窗口操作時間和滯后時間總會超時數(shù)分鐘。許多這種情形下的決策過程是使用持續(xù)運行的軟件自動完成的。
面對不允許有任何停機時間的業(yè)務(wù)需求,可擴展性和性能變得越來越重要。
如果沒有適當(dāng)?shù)募夹g(shù),那么在入庫和集成處理的每個步驟,系統(tǒng)幾乎都需要分段處理。由于在提取、轉(zhuǎn)換和加載(Extract, Transform and Load, ETL)的處理中需要合并不同的(特別是非標(biāo)準(zhǔn)的)數(shù)據(jù)源,而且需要執(zhí)行更復(fù)雜的操作(如數(shù)據(jù)挖掘和文本挖掘),這加大了對數(shù)據(jù)分段處理的需要。舉例來說,在圖 1 中,由于進行分段處理,使“關(guān)閉循環(huán)”(即開始分析并處理新數(shù)據(jù))進程所用時間也相應(yīng)增加。這些傳統(tǒng)的 ELT 體系結(jié)構(gòu)(與加載之前發(fā)生的增值 ETL 進程相對)為應(yīng)對新出現(xiàn)的業(yè)務(wù)需求,對系統(tǒng)能力施加嚴(yán)格的限制。
圖一
日益增加的全球性法規(guī)需求,要求公司保持清晰的審計線索。僅保持?jǐn)?shù)據(jù)可靠是不夠的,還需要數(shù)據(jù)能夠被跟蹤和驗證。
【編輯推薦】