大數(shù)據(jù)專家成為行業(yè)熱門職位
數(shù)據(jù)管理需要對數(shù)據(jù)以及相應的數(shù)據(jù)定義或元數(shù)據(jù)進行適當?shù)墓芾怼K荚诖_保(元)數(shù)據(jù)質量良好,因此是有效和高效管理決策的關鍵資源。數(shù)據(jù)質量(DQ)通常被定義為“適合使用”,這意味著該概念的相對性質。
在另一個決策環(huán)境中,即使是同一個業(yè)務用戶,原來其質量可接受的數(shù)據(jù)可能被認為質量較差。例如,分析性銷售預測任務的數(shù)據(jù)可能不能滿足會計任務數(shù)據(jù)的要求。
數(shù)據(jù)質量決定了數(shù)據(jù)對業(yè)務的內在價值。信息技術只是這個內在價值的放大鏡。因此,高質量的數(shù)據(jù)與有效的技術相結合是一項巨大的資產,但低質量的數(shù)據(jù)與有效的技術相結合也是一項巨大的責任。這有時也被稱為GIGO或“無用輸入,無用輸出”原理,即使采用了***的技術,也會導致獲得錯誤數(shù)據(jù)的結果。
基于無用數(shù)據(jù)做出的決策可以會讓企業(yè)損失數(shù)十億美元。而一個簡單的例子是企業(yè)的客戶地址。據(jù)估計,約有10%的客戶每年更換他們的地址。而過時或錯誤的客戶地址可能對郵購公司、包裹快遞提供商或政府服務產生重大影響。
糟糕的數(shù)據(jù)質量(DQ)會以多種方式影響組織。在運營層面上,它會影響客戶滿意度,增加運營支出,并會導致員工工作滿意度下降。同樣,在戰(zhàn)略層面,它會影響決策過程的質量。數(shù)據(jù)庫規(guī)模呈指數(shù)級增長,數(shù)據(jù)質量(DQ)問題的嚴重程度不斷加劇。這將使數(shù)據(jù)質量管理成為當今數(shù)據(jù)經(jīng)濟中最重要的商業(yè)挑戰(zhàn)之一。
組織正在獲得各種與數(shù)據(jù)管理相關的工作概況,以確保高數(shù)據(jù)質量并將數(shù)據(jù)轉化為實際業(yè)務價值。以下將介紹信息架構師、數(shù)據(jù)庫設計師、數(shù)據(jù)所有者、數(shù)據(jù)管理員、數(shù)據(jù)庫管理員和數(shù)據(jù)科學家的工作和內容。而根據(jù)數(shù)據(jù)庫和企業(yè)的規(guī)模,可能會將多個配置文件合并到一個工作描述中。
(1)信息架構師(也稱為信息分析師)。信息架構師負責設計概念數(shù)據(jù)模型,并與業(yè)務用戶進行溝通和對話。其彌合了業(yè)務流程和IT環(huán)境之間的鴻溝,并與可能有助于選擇概念數(shù)據(jù)模型類型(例如EER或UML)和數(shù)據(jù)庫建模工具的數(shù)據(jù)庫設計師密切合作。在數(shù)據(jù)準確性和數(shù)據(jù)完整性方面,一個良好的概念數(shù)據(jù)模型是存儲高質量數(shù)據(jù)的關鍵要求。
(2)數(shù)據(jù)庫設計師。其職責是將概念數(shù)據(jù)模型轉換為邏輯和內部數(shù)據(jù)模型,協(xié)助應用程序開發(fā)人員定義外部數(shù)據(jù)模型的視圖,從而有助于數(shù)據(jù)安全。為了便于將來對數(shù)據(jù)庫應用程序進行維護,數(shù)據(jù)庫設計人員在創(chuàng)建強制實現(xiàn)數(shù)據(jù)一致性的各種數(shù)據(jù)模型時,應定義公司范圍的統(tǒng)一命名約定。
組織中每個數(shù)據(jù)庫中的每個數(shù)據(jù)字段都應由數(shù)據(jù)所有者擁有,數(shù)據(jù)所有者有權決定是否訪問和使用數(shù)據(jù)。數(shù)據(jù)所有者可能是數(shù)據(jù)的原始生產者,其消費者之一或第三方。數(shù)據(jù)所有者應該能夠填寫或更新其值,這意味著數(shù)據(jù)所有者知道該字段的含義,并可以訪問當前的正確值(例如通過聯(lián)系客戶、查看文件等)。數(shù)據(jù)管理員可以要求數(shù)據(jù)所有者檢查或完成某個字段的值,以糾正數(shù)據(jù)質量問題。
(3)數(shù)據(jù)管理員。數(shù)據(jù)管理員是數(shù)據(jù)質量(DQ)專家,負責確保實際業(yè)務數(shù)據(jù)和相應元數(shù)據(jù)的質量。他們通過執(zhí)行廣泛和定期的數(shù)據(jù)質量檢查來評估數(shù)據(jù)質量(DQ)。除其他評估步驟外,這些檢查涉及應用或計算最相關的數(shù)據(jù)質量(DQ)維度的數(shù)據(jù)質量指標和指標。
顯然,他們也需要主動采取行動,并進一步處理這些評估的結果。***類應采取的措施是采取糾正措施。但是,數(shù)據(jù)管理員不負責自行更正數(shù)據(jù),因為這通常是數(shù)據(jù)所有者的責任。對數(shù)據(jù)質量評估結果采取的第二種行動涉及深入調查所發(fā)現(xiàn)數(shù)據(jù)質量問題的根本原因。
了解這些原因可能允許設計旨在消除數(shù)據(jù)質量問題的預防措施。預防措施可能包括修改數(shù)據(jù)來源的操作信息系統(tǒng)(例如,使字段成為強制性的,提供可能值的下拉列表,使界面合理化等)。
此外,系統(tǒng)中輸入的值可能會立即根據(jù)預定義的完整性規(guī)則進行有效性檢查,并且如果違反這些規(guī)則,可能會要求用戶更正數(shù)據(jù)。例如,企業(yè)稅務門戶可能會要求員工根據(jù)其社會安全號碼進行識別,可以通過聯(lián)系社會安全號碼數(shù)據(jù)庫實時檢查。顯然,實施這些預防措施需要負責應用程序的IT部門主管的密切參與。
總體而言,防止錯誤數(shù)據(jù)進入系統(tǒng)通常比事后糾正錯誤更具成本效益。但是,由于輸入數(shù)據(jù)中存在不必要的數(shù)據(jù)質量問題,因此應注意不要減慢關鍵流程。
(4)數(shù)據(jù)庫管理員(DBA)。其職責是負責實施和監(jiān)視數(shù)據(jù)庫。其工作內容包括:安裝和升級DBMS軟件、備份和恢復管理、性能調整和監(jiān)控、內存管理、復制管理、安全性和授權等。數(shù)據(jù)庫管理員(DBA)與網(wǎng)絡和系統(tǒng)管理員密切合作。
其還與數(shù)據(jù)庫設計人員進行交流,以降低運營管理成本,并保證達成一致的服務水平(例如響應時間和吞吐率)。數(shù)據(jù)庫管理員(DBA)可以提供數(shù)據(jù)可用性和可訪問性,以及其他兩個關鍵數(shù)據(jù)質量維度。
(5)數(shù)據(jù)科學家。數(shù)據(jù)科學家在數(shù)據(jù)管理的背景下是一個相對較新的職位。其負責使用***進的分析技術分析數(shù)據(jù),以提供新的見解,例如客戶行為。數(shù)據(jù)科學家具有將ICT技能(如編程)與定量建模(例如統(tǒng)計)、業(yè)務理解、溝通和創(chuàng)造力相結合的多學科特征。
一位優(yōu)秀的數(shù)據(jù)科學家應該擁有Java、R、Python、SAS等語言的良好編程能力。編程語言本身并不重要,只要數(shù)據(jù)科學家熟悉編程的基本概念,并知道如何使用這些來自動執(zhí)行重復任務或執(zhí)行特定例程即可。
顯然,數(shù)據(jù)科學家應該有統(tǒng)計學、機器學習和/或定量建模方面的全面背景。從本質上講,數(shù)據(jù)科學是一項技術練習。分析模型和商業(yè)用戶之間往往存在巨大差距。為彌合這一差距,溝通和可視化設施是關鍵。數(shù)據(jù)科學家應該知道如何通過使用交通信號燈方法,OLAP(在線分析處理)設施,如果當時的業(yè)務規(guī)則等以用戶友好的方式表示分析模型、附帶的統(tǒng)計數(shù)據(jù)和報告。
數(shù)據(jù)科學家至少需要兩個層面的創(chuàng)造力:在技術層面上,重要的是在數(shù)據(jù)選擇、數(shù)據(jù)轉換和清理方面進行創(chuàng)新。在分析層面上,標準分析過程的步驟必須適應每個特定的應用,而“正確的猜測”往往可以產生很大的差異。分析是一個快速發(fā)展的領域。
新的問題、技術和相應的挑戰(zhàn)不斷涌現(xiàn)。數(shù)據(jù)科學家必須跟上這些新的發(fā)展和技術發(fā)展的步伐,并且有足夠的創(chuàng)造力來看待他們如何能夠創(chuàng)造新的商業(yè)機會。這些數(shù)據(jù)科學家在當今的就業(yè)市場很難獲得,這并不奇怪。然而,數(shù)據(jù)科學家有助于提供新的數(shù)據(jù)和/或見解,這可以讓企業(yè)利用新的戰(zhàn)略商業(yè)機會。
總而言之,確保高質量的數(shù)據(jù)是綜合各種技能的多學科練習。在此從數(shù)據(jù)質量的角度回顧了以下數(shù)據(jù)管理作業(yè)配置文件:信息架構師、數(shù)據(jù)庫設計師、數(shù)據(jù)所有者、數(shù)據(jù)管理員、數(shù)據(jù)庫管理員、數(shù)據(jù)科學家。