數(shù)據(jù)業(yè)務(wù)成功須遵循的7個步驟
在IT領(lǐng)域,我們都熱愛炒作和制造流行語。與時(shí)尚潮流一樣,我們似乎有一個20年的周期,即我們會回歸到以前的技術(shù),然后賦予其新名稱,并堅(jiān)稱這是每個人必須立即擁有的技術(shù)。最新的炒作就是:大數(shù)據(jù)。
從Interop大會到各種云會議,我們被告知,如果我們沒有制定大數(shù)據(jù)戰(zhàn)略(并與云戰(zhàn)略相結(jié)合),那我們就落后了。
對于大數(shù)據(jù),有三個重要的事實(shí)。首先,它并不是新趨勢。亞馬遜、微軟和谷歌自上世紀(jì)90年代就開始進(jìn)行大數(shù)據(jù)工作。事實(shí)上,幾十年來,很多公司都一直在挖掘數(shù)據(jù)。可能由于當(dāng)時(shí)只有資金雄厚的大型公司才能夠進(jìn)行大數(shù)據(jù)研究,但大數(shù)據(jù)確實(shí)早已存在。現(xiàn)在,基于廉價(jià)的計(jì)算和存儲能力以及新工具和技術(shù),幾乎每個人都可以使用高級數(shù)據(jù)挖掘技術(shù)和算法了。
很多人認(rèn)為大數(shù)據(jù)只是商業(yè)智能(BI)的新名稱,雖然這兩者有相似之處,但大數(shù)據(jù)超出了BI的范疇。
第二個事實(shí):“大”是相對的。現(xiàn)在各行業(yè)各組織確實(shí)正面對創(chuàng)紀(jì)錄水平的數(shù)據(jù)增長。據(jù)IDC稱,我們每秒創(chuàng)造超過58 TB數(shù)據(jù),到2020年,將擁有超過35ZB的存儲數(shù)據(jù)。然而,大數(shù)據(jù)并不一定是巨大的,大數(shù)據(jù)并不在于其規(guī)模,而在于你需要如何處理它。擁有100 TB的小公司可能也存在大數(shù)據(jù)問題,因?yàn)樗麄冃枰崛 ⒎治鰯?shù)據(jù),并作出決策。
第三,大數(shù)據(jù)處理中使用的數(shù)據(jù)的定義是廣泛的,它可以包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。對于一些公司來說,最重要的是大數(shù)據(jù)的元數(shù)據(jù),或者關(guān)于數(shù)據(jù)的數(shù)據(jù)。
麥肯錫將大數(shù)據(jù)定義為“其規(guī)模超出傳統(tǒng)數(shù)據(jù)庫軟件的捕捉、存儲、管理和分析能力的數(shù)據(jù)集”,筆者補(bǔ)充了這一點(diǎn):“這些數(shù)據(jù)集需要大量運(yùn)行在數(shù)百甚至數(shù)千臺服務(wù)器(云)的并行軟件(系統(tǒng))來處理。”
以下是大數(shù)據(jù)成功的7個步驟:
第1步:承認(rèn)存在問題。 這往往是最難的一步。10年前,我們拒絕承認(rèn)我們的網(wǎng)絡(luò)已不再受防火墻和代理服務(wù)器設(shè)置的保護(hù),而我們不得不為員工遠(yuǎn)程訪問開放基礎(chǔ)設(shè)施并擁抱互聯(lián)網(wǎng)。對于大數(shù)據(jù),IT領(lǐng)導(dǎo)者需要評估其數(shù)據(jù)情況:
● 你的數(shù)據(jù)集讓你不堪重負(fù)嗎?
● 你不知道所有數(shù)據(jù)的位置?
● 你(或者企業(yè)領(lǐng)導(dǎo)者)沒有從你的數(shù)據(jù)中得到所需的信息?
● 企業(yè)領(lǐng)導(dǎo)沒有基于數(shù)據(jù)來做決策?
● 有可能提高IT在企業(yè)政策和戰(zhàn)略決策中的相關(guān)性嗎?
如果你像大多數(shù)公司一樣,部分或者所有這些問題的答案都是肯定的,那么是時(shí)候控制你的數(shù)據(jù),并從中挖掘出情報(bào)以提供給領(lǐng)導(dǎo)層做決定。
第2步:認(rèn)識到大數(shù)據(jù)帶來的大機(jī)會。 我們總是被告知要緊密聯(lián)系業(yè)務(wù),“業(yè)務(wù)技術(shù)”這一說法已存在多年,但我們總是很難看到最新的軟件和流程如何直接影響收入或者全球經(jīng)濟(jì)增長。而大數(shù)據(jù)卻可以。為什么?因?yàn)樾畔⒕褪橇α浚髽I(yè)領(lǐng)導(dǎo)需要數(shù)據(jù)中挖掘出的信息來幫助企業(yè)競爭和發(fā)展。員工、客戶和市場產(chǎn)生的大量數(shù)據(jù)讓整個企業(yè)(從銷售到營銷部門)都不堪重負(fù)。而大數(shù)據(jù)能夠?yàn)槟闾峁┖啙嵡覍?shí)時(shí)的價(jià)值信息,幫助增加收入。
第3步:制定大數(shù)據(jù)計(jì)劃。 與任何計(jì)劃一樣,你開始就應(yīng)該想到結(jié)果。企業(yè)需要知道什么?他們需要回答的問題是什么?在你開始使用Hadoop前,解決這些問題,并簽訂聯(lián)合協(xié)議。然后按照下列步驟操作(每個步驟可能需要數(shù)周或者數(shù)月):
1、隔離屬于“大數(shù)據(jù)”的部分?jǐn)?shù)據(jù)
2、分離“產(chǎn)品”大數(shù)據(jù)和“公司”大數(shù)據(jù),例如人力資源分析需要的員工數(shù)據(jù)和電子商務(wù)平臺的客戶或產(chǎn)品搜索數(shù)據(jù)需要分離
3、認(rèn)識和了解你的數(shù)據(jù)的波峰和波谷
4、了解哪些技術(shù)允許實(shí)時(shí)(或接近實(shí)時(shí))大數(shù)據(jù)處理
5、確定關(guān)鍵的解決方案/供應(yīng)商
6、從小事做起,評估與發(fā)展—先做一個項(xiàng)目,讓你可以快速展示成果和ROI,然后轉(zhuǎn)移到下一個大數(shù)據(jù)項(xiàng)目
7、繼續(xù)分析、調(diào)整和輸入—大數(shù)據(jù)是靈活的,需要隨著數(shù)據(jù)、情報(bào)和企業(yè)要求的變化進(jìn)行調(diào)整 #p#
第4步:利用分布式系統(tǒng)。 大數(shù)據(jù)要求我們轉(zhuǎn)換對系統(tǒng)和基礎(chǔ)設(shè)施的想法。正如虛擬化從根本上改變了我們利用服務(wù)器和應(yīng)用程序的方式,分布式系統(tǒng)和處理使我們能夠管理大數(shù)據(jù),因?yàn)榉植际郊軜?gòu)允許我們將問題分解成很多小任務(wù),然后將這些任務(wù)分配到多個系統(tǒng)。好消息是,我們擁有了越來越多的攻擊和架構(gòu)框架可以利用,包括Cassandra、Hadoop、VMware、Red Hat等。分布式系統(tǒng)并不新鮮,但大數(shù)據(jù)將其帶入到全新的水平,分布式方法包括:
● 多租戶架構(gòu)
● 分布式數(shù)據(jù)庫
● 虛擬化
● 多線程
● 多核心CPU
● 并行處理
● 分布式文件系統(tǒng)
● 分布式負(fù)載平衡
● RAID算法
第5步:從分布式到分散式。 對大多數(shù)公司來說,這是真正的范式轉(zhuǎn)變,這也是大數(shù)據(jù)和云計(jì)算結(jié)合的地方,鑒于互聯(lián)網(wǎng)是世界上最大的分布式和分散的系統(tǒng),我們應(yīng)該更加充分地利用互聯(lián)網(wǎng)來實(shí)現(xiàn)大數(shù)據(jù)。
我們很喜歡分布式實(shí)例或者計(jì)算處理,但分散式往往有種失去控制的感覺。這有必要嗎?對于大數(shù)據(jù),采用分散式做法是必要的,因?yàn)橛捎谶^度和孤立的服務(wù),所有未使用的實(shí)例和存儲容量都將浪費(fèi)。
更重要的是,單靠分布式組件無法讓我們跟上數(shù)據(jù)增長的步伐。IDC估計(jì),到2020年,產(chǎn)生的數(shù)據(jù)和數(shù)據(jù)中心容量之間的差距將達(dá)到60%。
然而,部分原因在于我們沒有充分利用我們已經(jīng)擁有的容量。Gartner估計(jì),大多數(shù)計(jì)算機(jī)、服務(wù)器和網(wǎng)絡(luò)只運(yùn)行了30%的容量以準(zhǔn)備好應(yīng)對峰值或者未來增長。雖然我們可能永遠(yuǎn)不會以90%或者100%的容量運(yùn)行,但我們可以更好地利用現(xiàn)有的容量,節(jié)省數(shù)百萬美元,提高現(xiàn)有基礎(chǔ)設(shè)施的總體擁有成本(TCO)。
分散式方法的主要特點(diǎn):
● 沒有中央瓶頸
● 大量的能力
● 有機(jī)的,需求推動容量增長
● 充分利用現(xiàn)有的基礎(chǔ)設(shè)施和邊緣設(shè)備
● 信息共享
● 假定每個人/每一個節(jié)點(diǎn)是“不可信任的”
● 地理分布:
○ 所有權(quán)和參與
○ 成本
○ 管理開銷
○ 風(fēng)險(xiǎn)
分散式方法存在很多很好的例子,其中最知名的就是開源運(yùn)動。
分散式方法還有兩個新例子,筆者定義為分散式云系統(tǒng):CloudStack和OpenStack。我們?nèi)匀晃挥诜稚⑹椒椒ǖ脑缙陔A段,但隨著數(shù)據(jù)繼續(xù)增長,這將是未來幾年的重要趨勢。
第6步:雇傭/培養(yǎng)合適的人才和技能。 云計(jì)算并不意味著更少的IT工作,但云計(jì)算和大數(shù)據(jù)的出現(xiàn)卻是意味著我們需要發(fā)展我們的技能和培養(yǎng)人才。在大數(shù)據(jù)世界,數(shù)據(jù)庫管理員等現(xiàn)有崗位變得更加重要。你還需要培養(yǎng)和招聘的其他職位包括:
● 數(shù)據(jù)科學(xué)家
● 架構(gòu)師
● 隨機(jī)理論師(算法)
● 業(yè)務(wù)分析師
● UX/UI專家
其中一些職位似乎是合乎邏輯的,但對于業(yè)務(wù)分析師和UX/UI專家,傳統(tǒng)上不屬于IT部門,你可以將這些人員安排在生產(chǎn)管理中,而在大數(shù)據(jù)解決方案中,他們需要攜手開發(fā)和運(yùn)營團(tuán)隊(duì)。這是因?yàn)槟悴荒苤苯訉⒋髷?shù)據(jù)信息交給業(yè)務(wù)方面,使用圖表和易于理解的分析是關(guān)鍵。
此外,如果你還沒有整合開發(fā)/運(yùn)營團(tuán)隊(duì)來更好地管理云計(jì)算部署,那么現(xiàn)在可以這樣做了。這兩個團(tuán)隊(duì)必須攜手合作來實(shí)現(xiàn)任何云計(jì)算或者大數(shù)據(jù)戰(zhàn)略。
第7步:通過大數(shù)據(jù)來利用數(shù)據(jù)。正如IT職位可能開始更傾向于業(yè)務(wù),IT需要改變其度量的方式。你的團(tuán)隊(duì)中的每個人都應(yīng)該熱衷于追蹤和記錄關(guān)鍵性能指標(biāo)(KPI),這些應(yīng)該符合業(yè)務(wù)指標(biāo),而不只是及時(shí)發(fā)布和交付高質(zhì)量代碼。技術(shù)團(tuán)隊(duì)的每個人都應(yīng)該有明確的指標(biāo),并努力尋找新方法來提高指標(biāo)結(jié)果。
大數(shù)據(jù)可能不是我們所有人想要的答案,但它確實(shí)給IT創(chuàng)造了幫助企業(yè)提高收入的機(jī)會。