成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)分析的理解和探索

大數(shù)據(jù) 數(shù)據(jù)分析
如今,云計(jì)算的熱潮似乎還沒散去,行業(yè)廠商就已經(jīng)開始關(guān)注下一個(gè)熱點(diǎn):大數(shù)據(jù)。而與以往的炒作周期一樣,現(xiàn)在的大數(shù)據(jù)對于用戶來說其來源比較混亂,因?yàn)楣?yīng)商提出了自己獨(dú)特的,并且經(jīng)常相互矛盾的定義和術(shù)語。

如今,云計(jì)算的熱潮似乎還沒散去,行業(yè)廠商就已經(jīng)開始關(guān)注下一個(gè)熱點(diǎn):大數(shù)據(jù)。而與以往的炒作周期一樣,現(xiàn)在的大數(shù)據(jù)對于用戶來說其來源比較混亂,因?yàn)楣?yīng)商提出了自己獨(dú)特的,并且經(jīng)常相互矛盾的定義和術(shù)語。

大數(shù)據(jù)定議之所以混亂的最常見的原因,是人們將大數(shù)據(jù)存儲與大數(shù)據(jù)分析的結(jié)果混為一談。“大數(shù)據(jù)”一詞起源于開源社區(qū),其開發(fā)和分析過程比傳統(tǒng)的數(shù)據(jù)倉庫速度更快,擴(kuò)展性更強(qiáng),并且可以通過網(wǎng)絡(luò)在用戶每天產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)中提取價(jià)值。

大數(shù)據(jù)的存儲是相關(guān)的,其旨在解決大量的非結(jié)構(gòu)化數(shù)據(jù),助長企業(yè)級的數(shù)據(jù)增長。而擴(kuò)展NAS和對象存儲這些技術(shù)支撐大數(shù)據(jù)存儲,已經(jīng)存在了多年,并且人們對此有著充分的了解。

在一個(gè)非常簡單的層面上,大數(shù)據(jù)存儲無非是存儲用于產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序處理的大量數(shù)據(jù)。這包括高清晰度視頻流,油氣勘探,基因組學(xué)等數(shù)據(jù)。

一個(gè)大型存儲廠商的一位營銷高管表示,其公司正在考慮將“海量數(shù)據(jù)”作為其大數(shù)據(jù)存儲條目的名稱。

大數(shù)據(jù)分析是比較緊急的和多方面的,但I(xiàn)T人員對其理解較少。大數(shù)據(jù)分析發(fā)展過程在歷史上一直受到網(wǎng)絡(luò)的推動。然而,大數(shù)據(jù)分析的應(yīng)用程序正在發(fā)生在所有主要垂直行業(yè)領(lǐng)域,現(xiàn)在的快速增長是一個(gè)增長的機(jī)會,值得所有供應(yīng)商進(jìn)行炒作。

大數(shù)據(jù)分析是快速增長的多樣化的區(qū)域。因此,試圖確定它有什么用可能是無益的。但是,可以識別和鑒定大數(shù)據(jù)分析的技術(shù)特征和共同點(diǎn)。這些包括:

?在可擴(kuò)展性方面,傳統(tǒng)的數(shù)據(jù)倉庫處理速度太慢,而且有限制;

?融合來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)的能力,其中包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);

?從數(shù)據(jù)來源獲取信息是至關(guān)重要的,其中包括越來越多的移動設(shè)備、無線射頻識別技術(shù)、網(wǎng)絡(luò),以及自動化技術(shù)。

此外,在多樣性大數(shù)據(jù)分析中可以找到至少四個(gè)主要發(fā)展片段。這些片段是MapReduce,可擴(kuò)展的數(shù)據(jù)庫,實(shí)時(shí)流處理和大數(shù)據(jù)應(yīng)用。

(1)MapReduce

ApacheHadoop是MapReduce段開始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一種用于并行網(wǎng)絡(luò)的數(shù)據(jù)處理稱為MapReduce的概念。此后不久,ApacheHadoop的誕生成為一個(gè)開源實(shí)現(xiàn)MapReduce的過程。周圍的社區(qū)正在快速成長,生產(chǎn)加載項(xiàng)擴(kuò)展了企業(yè)數(shù)據(jù)中心內(nèi)的ApacheHadoop的可用性。

Apache的Hadoop的用戶通常在商用服務(wù)器建立自己的并行計(jì)算集群,各有專門存儲在一個(gè)小型磁盤陣列的形式,最近,也開始采用固態(tài)硬盤(SSD)的形式。這些通常被稱為“無共享”架構(gòu)。而存儲區(qū)域網(wǎng)絡(luò)(SAN)和網(wǎng)絡(luò)附加存儲(NAS)的可擴(kuò)展性和彈性,通常被視為缺乏I/O性能,這些集群需要超越標(biāo)準(zhǔn)的數(shù)據(jù)倉庫的能力。因此,Hadoop的存儲是直接連接存儲(DAS)。然而,使用SAN和NAS的“二次”存儲正在成為新興的形式。

一個(gè)潛在的Hadoop用戶面臨的采購選擇,從單純的開源到高度商業(yè)化的版本,其范圍內(nèi)越來越廣泛。Apache的Hadoop和相關(guān)的工具都可以免費(fèi)在ApacheHadoop的網(wǎng)站下載。Cloudera的公司提供了一個(gè)商業(yè)版本,其中包括一些Cloudera的插件和支持。其他開放源代碼的變種,如Facebook的distribution,也可以從Cloudera公司獲得。其商業(yè)版本包括MAPR,EMC公司現(xiàn)在將其合并成一個(gè)Hadoop應(yīng)用。

(2)可擴(kuò)展的數(shù)據(jù)庫

而Hadoop已經(jīng)攫取了大部分的頭條新聞,因?yàn)樗跀?shù)據(jù)倉庫環(huán)境下具有非結(jié)構(gòu)化數(shù)據(jù)的處理能力,更有向大數(shù)據(jù)分析的發(fā)展空間。

結(jié)構(gòu)化數(shù)據(jù)也得到了大量的關(guān)注。一個(gè)充滿活力和快速增長的社區(qū)圍繞NoSQL,這是一個(gè)開源的、非關(guān)系型、分布和橫向擴(kuò)展的數(shù)據(jù)庫集合的結(jié)構(gòu),可以滿足網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)庫設(shè)計(jì)的高流量的網(wǎng)站和流媒體的需要。面向文檔的實(shí)現(xiàn)包括MongoDB(如“humongous”DB)和Terrastore。

開源社區(qū)所產(chǎn)生的另一種面向分析的數(shù)據(jù)庫是正在開發(fā)使用的scidb,包括環(huán)境觀測和監(jiān)測,射電天文學(xué)和地震,等等。

傳統(tǒng)的數(shù)據(jù)倉庫供應(yīng)商并沒有袖手旁觀。甲骨文公司正在打造其“下一代”大數(shù)據(jù)平臺,將利用其分析平臺和內(nèi)存計(jì)算的實(shí)時(shí)信息傳遞。Teradata公司最近收購了ASTER數(shù)據(jù)系統(tǒng)公司,將ASTER數(shù)據(jù)的SQLMapReduce添加到其產(chǎn)品組合中。

(3)實(shí)時(shí)流處理

對于多個(gè)數(shù)據(jù)流進(jìn)行實(shí)時(shí)分析的StreamSQL從2003年開始使用,然而到現(xiàn)在為止,StreamSQL只能夠滲透到一些比較小的小眾市場,如金融服務(wù),監(jiān)視和通信網(wǎng)絡(luò)監(jiān)控等領(lǐng)域。而隨著行業(yè)廠商和用戶對大數(shù)據(jù)的興趣不斷增長,StreamSQL勢必會得到更多的關(guān)注和尋找更多的市場機(jī)會。

Streamsql是生長計(jì)算研究的一個(gè)區(qū)域稱為復(fù)雜事件處理(CEP),對真實(shí)世界的事件數(shù)據(jù)的低延遲處理技術(shù)。無論是IBM,還是InfoSphereStreams公司,以及StreamBase系統(tǒng)公司的產(chǎn)品都在這個(gè)領(lǐng)域中。

(4)大數(shù)據(jù)應(yīng)用

作為大數(shù)據(jù)分析的興趣擴(kuò)展到企業(yè)數(shù)據(jù)中心,供應(yīng)商群體看到了一個(gè)機(jī)會,把一起大數(shù)據(jù)“家電”。這些設(shè)備的服務(wù)器,網(wǎng)絡(luò)和存儲設(shè)備集成到加速信息傳遞到一個(gè)機(jī)箱和運(yùn)行分析軟件用戶。這些設(shè)備針對企業(yè)買家都會看重大數(shù)據(jù)設(shè)備易用性和價(jià)值,以及其固有的實(shí)施和使用的特點(diǎn)而推出的。圍繞Greenplum數(shù)據(jù)庫引擎這個(gè)領(lǐng)域的廠商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商業(yè)化版本,預(yù)集成系統(tǒng),內(nèi)置設(shè)備,可與甲骨文和Teradata公司的版本相媲美。

大數(shù)據(jù)分析的大數(shù)據(jù)存儲

大數(shù)據(jù)分析過程的從業(yè)人員一般都不喜歡共享存儲。他們喜歡DAS的各種形式,從SSD到其內(nèi)部并行處理節(jié)點(diǎn)的高容量的SATA硬盤。共享存儲體系結(jié)構(gòu),如SAN和NAS,通常被認(rèn)為是相對緩慢的復(fù)雜的,首先,是其價(jià)格昂貴。這些特點(diǎn)都不選用于大數(shù)據(jù)分析系統(tǒng)的系統(tǒng)性能,不能滿足商品基礎(chǔ)設(shè)施的低成本的蓬勃發(fā)展。

實(shí)時(shí)或接近實(shí)時(shí)信息傳遞是大數(shù)據(jù)分析的定義特征之一,因此,延遲是可以避免的,無論何時(shí)何地。在內(nèi)存中的數(shù)據(jù)是良好的,至少比采用光纖傳輸?shù)綑C(jī)械式硬盤要好,但也許比其他任何事情都更加糟糕,SAN在規(guī)模需要分析應(yīng)用的成本讓人望而卻步。

在大數(shù)據(jù)分析中,有一個(gè)共享存儲的案例。然而,存儲廠商和一般的存儲社區(qū)還沒有成為大數(shù)據(jù)分析的實(shí)踐者。這個(gè)例子可以在ParAccel的分析數(shù)據(jù)庫(PADB)與NetAppSAN存儲中看到。

數(shù)據(jù)存儲技術(shù)的開發(fā)人員表示將存儲看作從物理設(shè)備遷移到一個(gè)更虛擬和抽象的實(shí)體的實(shí)現(xiàn)。其結(jié)果是,共享存儲環(huán)境可以并且應(yīng)該被大數(shù)據(jù)從業(yè)者視為他們可以找到潛在有價(jià)值的數(shù)據(jù)服務(wù),如:

(1)數(shù)據(jù)保護(hù)和系統(tǒng)可用性:基于存儲的復(fù)制功能可以不需要數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)副本,當(dāng)系統(tǒng)故障和數(shù)據(jù)損壞事件發(fā)生時(shí),重新啟動可以恢復(fù)系統(tǒng)。

(2)縮短部署新應(yīng)用程序和自動化流程的時(shí)間:通過可重復(fù)使用的數(shù)據(jù)副本,當(dāng)新的應(yīng)用程序都可以在網(wǎng)上迅速被建立,提高業(yè)務(wù)靈活性。

(3)變更管理:共享存儲可以幫助保持一個(gè)“永遠(yuǎn)在線”的能力,可能減少所需的改變和升級,以及對在線生產(chǎn)環(huán)境的影響。

(4)生命周期管理:當(dāng)共享存儲可以作為記錄的數(shù)據(jù)庫時(shí),系統(tǒng)的演化變得更加容易管理,并且那些已經(jīng)廢棄的應(yīng)用變得更加容易丟棄。

(5)節(jié)約成本:使用共享存儲作為一個(gè)無共享架構(gòu),可以輔助DAS降低成本和處理器節(jié)點(diǎn)的復(fù)雜性。

以上提到的好處每個(gè)人都可以被映射到無共享架構(gòu)的分析。我們可以期望看到更多的存儲廠商這樣做一段時(shí)間。例如,雖然尚未公布,EMC公司可以憑借其基于MAPR設(shè)備整合Isilon或Atmos公司的存儲。

大數(shù)據(jù)是一個(gè)大問題

傳統(tǒng)的數(shù)據(jù)倉庫是一個(gè)大而相對較慢的生產(chǎn)商信息的業(yè)務(wù)分析。它從有限的數(shù)據(jù)資源,并依賴于反復(fù)的提取、轉(zhuǎn)換和加載(ETL)過程。客戶在快速尋找獲取信息的基礎(chǔ)上,從多個(gè)數(shù)據(jù)源同時(shí)淘汰掘金。大數(shù)據(jù)分析可以被定義,在一定程度上,需要從多個(gè)數(shù)據(jù)源解析大數(shù)據(jù)集,并產(chǎn)生實(shí)時(shí)或接近實(shí)時(shí)的信息。

大數(shù)據(jù)分析代表了一個(gè)巨大的機(jī)會。IT組織都在探索上述來自社交網(wǎng)絡(luò)的繁榮,解析基于網(wǎng)絡(luò)的數(shù)據(jù)源和提取價(jià)值分析技術(shù)。然而,現(xiàn)在有了一個(gè)更大的機(jī)會,那就是物聯(lián)網(wǎng)成為了一種新興的數(shù)據(jù)源。思科系統(tǒng)公司估計(jì)全球目前約有350億個(gè)可以連接到互聯(lián)網(wǎng)的電子設(shè)備。任何電子設(shè)備可以(有線或無線)連接到互聯(lián)網(wǎng),甚至汽車制造商正在建設(shè)連接到車輛的互聯(lián)網(wǎng)。“連接的”汽車將在2020年成為司空見慣的事情,并產(chǎn)生數(shù)以百萬計(jì)的瞬態(tài)數(shù)據(jù)流。

理解大數(shù)據(jù)分析

利用多個(gè)數(shù)據(jù)源,如物聯(lián)網(wǎng)的力量將會遠(yuǎn)遠(yuǎn)超出傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)。這將需要模仿人類大腦功能的過程。我們的大腦需要大量的感官數(shù)據(jù)流,并創(chuàng)建必要的相關(guān)關(guān)系,讓我們知道我們在哪里,我們在做什么,最終我們在想什么,所有這些都是實(shí)時(shí)的。

責(zé)任編輯:龐桂玉 來源: 機(jī)房360
相關(guān)推薦

2021-01-14 12:17:52

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2021-09-10 14:05:14

預(yù)測分析大數(shù)據(jù)分析大數(shù)據(jù)

2021-09-06 09:00:00

大數(shù)據(jù)大數(shù)據(jù)分析技術(shù)

2019-04-15 15:32:12

大數(shù)據(jù)開發(fā)數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2015-08-14 10:28:09

大數(shù)據(jù)

2020-05-13 11:32:28

數(shù)據(jù)分析數(shù)值分析

2021-08-06 11:01:23

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2017-07-22 00:41:27

大數(shù)據(jù)數(shù)據(jù)存儲

2021-09-23 18:12:09

大數(shù)據(jù)分析預(yù)測分析

2019-07-31 14:16:35

大數(shù)據(jù)人工智能算法

2015-08-11 15:52:52

大數(shù)據(jù)數(shù)據(jù)分析

2012-08-08 09:53:23

HadoopMapReduce

2021-10-12 15:25:08

大數(shù)據(jù)數(shù)據(jù)分析

2022-03-29 14:49:14

大數(shù)據(jù)數(shù)據(jù)分析

2015-07-23 09:34:57

大數(shù)據(jù)數(shù)據(jù)分析

2013-04-09 09:28:20

大數(shù)據(jù)大數(shù)據(jù)全球技術(shù)峰會

2014-04-25 09:23:06

2022-08-03 14:30:52

大數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)收集

2021-11-11 11:27:55

大數(shù)據(jù)分析系統(tǒng)

2018-10-24 14:32:15

數(shù)據(jù)分析數(shù)據(jù)科學(xué)算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲国产成人精品女人久久久野战 | 女同久久另类99精品国产 | 中文字幕日韩欧美一区二区三区 | 中文字幕精品一区 | 一级黄色播放 | 97精品国产手机 | 日日操视频 | 久久久精品国产 | www.亚洲国产精品 | 国产午夜在线 | 精品视频一区在线 | 四色永久| 日韩欧美网 | 国产人免费人成免费视频 | 成人在线精品 | 久久国产精品一区 | 国产精品久久久久久久久久久久冷 | 国产成视频在线观看 | 亚洲福利av | 91成人精品 | 亚洲aⅴ| 日韩av在线免费 | 在线视频亚洲 | 欧美黄色一级毛片 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 成人国产在线视频 | 中文字幕在线电影观看 | 91视视频在线观看入口直接观看 | 亚洲va国产日韩欧美精品色婷婷 | 欧美在线观看一区 | 国精产品一品二品国精在线观看 | 女生羞羞网站 | 亚洲成人精 | 久久久久久久综合色一本 | 日韩h| 国产激情在线观看 | 在线看亚洲 | 日韩在线 | 国产做a爱片久久毛片 | 欧美高清视频 | 国产亚洲精品久久久久久牛牛 |