成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據熱門詞匯齊報到

譯文
新聞 系統
如今,大數據正在成為主流,它從科學和高科技公司的專用技術轉變為企業IT應用程序的專用技術。大數據作為IT工具的主流,對IT領域有重大的影響。許多人一聽到"大數據",覺得是指"大量數據",而大數據的涵義絕不僅僅涉及數據量的多寡。下面有幾個大數據熱門詞匯齊報到,一起看看吧!

   【51CTO外電頭條】可以說,大數據是如今IT行業最熱門的趨勢之一,它催生出了處理大數據的一批全新技術。而新技術帶來了新的熱門詞匯:首字母縮略詞、專業術語和產品名稱等。連"大數據"這個短語本身都讓人犯暈。許多人一聽到"大數據",覺得是指"大量數據",而大數據的涵義絕不僅僅涉及數據量的多寡。

  下面是我們認為你要熟悉的幾個熱門詞匯,按字母順序排列。

ACID

  ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保數據庫事務的數據完整性。雖然ACID問世已有一段時日,但是事務數據量的急劇增長把更多的注意力投向在處理大數據時需要滿足ACID的規定。

  大數據三要素

  如今的IT系統在生成數量、速度和種類都很"龐大"的數據。

  數量:IDC公司估計,今年全球信息總量將達到2.7澤字節(這相當于27億太字節),而且每兩年就翻一番。

  速度:讓IT管理人員們頭痛的不僅僅是數據數量,還有數據從金融系統、零售系統、網站、傳感器、無線射頻識別(RFID)芯片以及Facebook和推特等社交網絡源源而來的速度越來越快。

  種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數字數據,它們很容易存儲在關系數據庫中整齊排列的行和列中。現在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化數據都是大數據組合的一部分。

  列式(或列型)數據庫

  一些新一代數據庫(如開源Cassandra和惠普的Vertica數據庫)被設計成了按列存儲數據,而不是像傳統的SQL數據庫那樣按行存儲數據。這種設計提供了更快的磁盤訪問速度,提高了處理大數據時的性能。對數據密集型業務分析應用系統而言,列式數據庫尤其受到歡迎。

  數據倉庫

  數據倉庫這個概念存在至今已有大概25年了,具體指將數據從多個操作IT系統復制到面向業務分析應用系統的輔助離線數據庫

  但是隨著數據量急劇增長,數據倉庫系統正在迅速改變。它們需要存儲更多的數據以及更多種類的數據,因而數據倉庫管理成為一大難題。10年或20年前,數據可能每周或每月復制到數據倉庫系統中;而如今,數據倉庫的更新要頻繁得多,有的甚至實時更新。

ETL

  將數據從一個數據庫(比如支持銀行應用事務處理系統的數據庫)轉移到另一個數據庫(比如用于業務分析的數據倉庫系統)時,就要用到提取、轉換和加載(ETL)軟件。數據從一個數據庫傳送到另一個數據庫時,常常需要對數據進行重新格式化和清理操作。

  由于數據量急劇增長,數據處理速度大大加快,對ETL工具的性能要求也大大提高了。

  Flume

  Flume是屬于Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用于為Hadoop填充數據。該技術使用散布于應用服務器、Web服務器、移動設備及其他系統上的軟件代理,收集數據,并將數據傳送到Hadoop系統。

  比如說,公司可以使用在Web服務器上運行的Apache Flume,收集來自推特帖子的數據,以便分析。

  地理空間分析

  推動大數據潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間數據越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基于地理位置的內容是導致如今大數據呈爆炸式增長的主要動因。

  地理空間分析是一種特殊形式的數據可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數據,以幫助用戶更清楚地理解大數據分析的結果。

  Hadoop

  Hadoop是一種開源平臺,用于開發分布式、數據密集型的應用程序。它由Apache軟件基金會控制。

  Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapReduce概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。

  另外,HBase是一種非關系數據庫,它是作為Hadoop項目的一部分開發而成的。Hadoop分布式文件系統(HDFS)是Hadoop的一個關鍵組成部分。Hive則是建立在Hadoop基礎上的數據倉庫系統。

  內存中數據庫

  計算機在處理事務或執行查詢時,一般從磁盤驅動器獲取數據。但是當IT系統處理大數據時,這個過程可能實在太慢。

  內存中數據庫系統利用計算機的主內存來存儲經常使用的數據,因而大大縮短了處理時間。內存中數據庫產品包括SAP HANA和甲骨文Times Ten內存中數據庫。

Java

  Java是一種編程語言,由現隸屬甲骨文公司的Sun開發,于1995年發布。Hadoop和其他許多大數據技術都是使用Java開發而成的,它仍是大數據領域一種主要的開發技術。

  Kafka

  Kafka是一種高吞吐量的分布式消息傳送系統,最初是在LinkedIn開發而成,用于管理該服務網站的活動流(關于網站使用情況的數據)和操作數據處理流水線(關于服務器組件的性能)。

  Kafka在處理大量流式數據時很有效,而流式數據是許多大數據計算環境的一個關鍵問題。由推特開發的Storm是另一種大行其道的流處理技術。

  Apache軟件基金會已將Kafka列為一個開源項目。所以,別以為這是有缺陷的軟件。

  延遲時間

  延遲時間是指數據從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程序)響應另一個系統的延遲數量。

  雖然延遲時間不是什么新術語,但是隨著數據量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。簡單地說,"低延遲"是好事,"高延遲"是壞事。

  映射/化簡

  映射/化簡(Map/Reduce)這種方法是指把一個復雜的問題分解成多個較小的部分,然后將它們分發到多臺計算機上,最后把它們重新組裝成一個答案。

  谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapReduce的框架。

  谷歌在2004年發布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。

  NoSQL數據庫

  大多數主流的數據庫(如甲骨文數據庫和微軟SQL Server)基于關系型體系結構,使用結構化查詢語言(SQL)用于開發和數據管理。

  但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代數據庫系統基于支持者們認為更適合處理大數據的體系結構。

  一些NoSQL數據庫是為提高可擴展性和靈活性設計的,另一些NoSQL數據庫在處理文檔及其他非結構化數據方面比較有效。典型的NoSQL數據庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。

  Oozie

  Apache Oozie是一種開源工作流引擎,用于幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapReduce)來加以定義,然后彼此關聯起來。比如說,一旦從操作應用程序收集數據的作業已完成,程序員就可以啟動數據分析查詢任務。

  Pig

  Pig是Apache軟件基金會的另一個項目,這個平臺用于分析龐大的數據集。就其本質而言,Pig是一種編程語言,可用于開發在Hadoop上運行的并行計算查詢。

  定量數據分析

  定量數據分析是指使用復雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。

  由于如今收集的數據量急劇增加,定量數據分析已變得更加復雜。但是如果公司知道如何利用海量數據,獲得更好的可視性,深入了解公司業務,并且洞察市場發展趨勢,那么更多的數據也有望在數據分析方面帶來更多的機會。

  一個問題是,擁有這種分析技能的人才嚴重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數據分析技能的分析員和管理員。

  關系數據庫

  關系數據庫管理系統(RDBM)是如今使用最廣泛的一種數據庫,包括IBM的DB2、微軟的SQL Server和甲骨文數據庫。從銀行應用系統、零售店的銷售點系統到庫存管理應用軟件,大多數的企業事務處理系統都在RDBM上運行。

  但有些人認為,關系數據庫可能跟不上如今數據量和種類都呈爆炸式增長的形勢。比如說,RDBM當初在設計時著眼于處理字母數字數據,處理非結構化數據時不是同樣有效。

  分片

  隨著數據庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種數據庫分區技術,把數據庫分成了更小、更容易管理的部分。具體來說,數據庫被橫向分區,以便單獨管理數據庫表中的不同行。

  分片方法讓龐大數據庫的片段可以分布在多臺服務器上,從而提高數據庫的整體運行速度和性能。

  另外,Sqoop是一種開源工具,用于將來自非Hadoop來源(如關系數據庫)的數據轉移到Hadoop環境。

  文本分析

  導致大數據問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。由于文本是非結構化數據(不像通常存儲在關系數據庫中的結構化數據),主流的業務分析工具面對文本時常常束手無策。

  文本分析采用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基于文本的數據中獲得洞察力。

  非結構化數據

  就在不久前,大部分數據還是結構化數據,這種字母數字信息(如來自銷售交易的財務數據)很容易存儲在關系數據庫中,并由商業智能工具來分析。

  但是如今共計2.7澤字節的存儲數據中很大一部分是非結構化數據,比如基于文本的文檔、推特消息、發布在Flickr上的照片、發布在YouTube上的視頻,等等。(頗有意思的是,每分鐘有長達35個小時的視頻內容上傳到YouTube。)處理、存儲和分析所有這些凌亂的非結構化數據常常是如今的IT系統面臨的難題。

  可視化

  隨著數據量的增長,人們使用靜態的圖表和圖形來理解數據越來越困難了。這就導致開發新一代的數據可視化和分析工具,能夠以新的方式呈現數據,從而幫助人們理解海量信息。

  這些工具包括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫可視化,以及在地理地圖上覆蓋數據的地理空間呈現。今天的先進數據可視化工具還具有更強的互動性,比如允許用戶放大某個數據子集,進行更仔細的檢查。

  Whirr

  Apache Whirr是一組Java類庫,用于運行大數據云服務。更確切地說,它可以加快在亞馬遜彈性計算云(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。

  XML

  可擴展標記語言(XML)用來傳輸和存儲數據(別與HTML混為一談,后者用來顯示數據)。借助XML,程序員們就可以創建通用的數據格式,并通過互聯網共享信息和格式。

  由于XML文檔可能非常龐大、復雜,它們往往被認為導致IT部門面臨大數據挑戰。

  堯字節

  堯字節(yottabyte)是一種數據存儲度量指標,相當于1000澤字節。據知名調研機構IDC公司估計,今年全球存儲的數據總量預計將達到2.7澤字節,比2011年增長48%。所以,我們離達到堯字節這個大關還有很長一段路,不過從目前大數據的增長速度來看,那一天的到來可能比我們想象的要快。

  順便說一下,1澤字節相當于1021字節的數據。它相當于1000艾字節(EB)、100萬拍字節(PB)和10億太字節(TB)。

  ZooKeeper

  ZooKeeper是由Apache軟件基金會創建的一項服務,旨在幫助Hadoop用戶管理和協調跨分布式網絡的Hadoop節點。

  ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的數據庫。ZooKeeper是一項集中式服務,用于維護配置信息、命名服務、分布式同步及其他群組服務。IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗余服務。

原文鏈接:

http://www.crn.com/slide-shows/data-center/240142568/big-data-buzzwords-from-a-to-z.htm?pgno=1

責任編輯:黃丹 來源: 51CTO.com
相關推薦

2015-11-26 10:35:45

數據可用性

2018-05-16 09:00:24

數據質量數據管理數據科學家

2020-11-11 10:12:32

大數據

2017-10-30 11:11:03

2015-09-10 10:59:34

大數據趨勢

2012-01-17 09:07:29

大數據數據云計算

2018-07-18 12:36:28

大數據工程師開發

2015-09-29 15:56:33

2015-10-21 17:10:45

2013-05-29 09:47:54

2011-10-19 09:40:47

云計算移動開發SaaS

2019-08-25 21:28:45

2016-11-18 12:08:53

2021-02-02 15:23:20

Cloudera大數據

2013-01-05 09:35:26

2019-01-06 16:15:50

云計算SaaSIaaS

2018-05-23 20:25:41

數據科學數據庫信息技術

2013-01-09 10:15:02

云計算大數據

2019-09-01 21:20:18

騰訊云大數據

2013-12-16 14:51:09

大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美三级电影在线观看 | 国产精品视频在线免费观看 | 日日噜噜夜夜爽爽狠狠 | 亚洲一区二区三区四区五区中文 | 久久久久久久久国产精品 | 一级片视频免费观看 | 亚洲视频网 | 91在线免费视频 | 久久久久久久久99精品 | 久久精品黄色 | 99热国产精品 | 国产高清视频 | 日本激情一区二区 | 精品毛片视频 | 欧美精品一 | 欧美xxxx黑人又粗又长 | 亚洲综合一区二区三区 | 久久综合久色欧美综合狠狠 | 毛片毛片毛片毛片毛片 | 久久久久一区二区 | 天天久久 | 伊人在线 | 国产精品美女久久久久久不卡 | 国产精品欧美一区二区三区 | 天堂在线www | 国产精品我不卡 | 免费观看av | 精品中文字幕在线 | 国产成人精品一区二三区在线观看 | 亚洲精品一区二区在线观看 | 波多野结衣一二三区 | 国产精品一区二区久久久久 | 久久精品福利 | 中文字幕亚洲专区 | 一级a爱片性色毛片免费 | 久久精品国产99国产精品 | 九九色九九 | 日本精品久久久久久久 | 天天干国产 | 久久久成人免费一区二区 | 二区中文字幕 |