盤(pán)點(diǎn)九種引人矚目的開(kāi)源大數(shù)據(jù)技術(shù)
越來(lái)越多的公司開(kāi)始聚焦于大數(shù)據(jù)技術(shù)領(lǐng)域,而開(kāi)源恰恰是大數(shù)據(jù)技術(shù)的靈魂。以下將為您介紹九大引人注目的開(kāi)源大數(shù)據(jù)技術(shù),請(qǐng)拭目以待:
1.Apache Hadoop
Apache hadoop是一個(gè)開(kāi)源的分布式計(jì)算框架,最初由Doug為支持其開(kāi)源Web搜索引擎Nutch所創(chuàng)立。通過(guò)集成MapReduce技術(shù),Hadoop將大數(shù)據(jù)分布到多個(gè)數(shù)據(jù)節(jié)點(diǎn)上進(jìn)行處理。Hadoop遵循Apache 2.0許可證,可以輕松處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),一舉成為現(xiàn)在非常流行的大數(shù)據(jù)解決方案,
2.R語(yǔ)言
R語(yǔ)言是一種開(kāi)源編程語(yǔ)言,專門(mén)為數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)可視化而設(shè)計(jì)。R語(yǔ)言最初由Ross Ihaka和Robert Gentleman在奧克蘭大學(xué)設(shè)計(jì)出來(lái),之后迅速成為大數(shù)據(jù)領(lǐng)域的重要工具。R語(yǔ)言遵循GPL許可證。
3.Cascading
Cascading是一個(gè)針對(duì)Java開(kāi)發(fā)人員的應(yīng)用框架,可以快速、輕松地基于Apache Hadoop開(kāi)發(fā)數(shù)據(jù)分析和數(shù)據(jù)管理應(yīng)用。Cascading是Hadoop的抽象層,可以屏蔽MapReduce的復(fù)雜性,支持任何基于JVM的編程語(yǔ)言在Hadoop集群上執(zhí)行數(shù)據(jù)處理任務(wù)。Cascading最初由Chris Wensel開(kāi)發(fā),用于作為MapReduce的替代API。Cascading遵循GNU許可證,一般用于廣告定位、日志分析、Web數(shù)據(jù)挖掘和ETL應(yīng)用。
4.Scribe
Scribe于2008年發(fā)布,是一個(gè)由Facebook開(kāi)發(fā)的日志聚合服務(wù)器軟件,用于實(shí)時(shí)從大量服務(wù)器匯集日志數(shù)據(jù)。Scribe遵循Apache 2許可證,擴(kuò)展性極佳,每天可應(yīng)對(duì)數(shù)百億日志記錄的挑戰(zhàn)。
5.ElasticSearch
ElasticSearch是一款由Shay Banon開(kāi)發(fā),遵循Apache許可證的開(kāi)源搜索服務(wù)器。ElasticSearch基于分布式計(jì)算,對(duì)于實(shí)時(shí)搜索可以提供很好的可擴(kuò)展性解決方案。許多公司已經(jīng)對(duì)ElasticSearch表示認(rèn)可,比如StumbleUpon和Mozilla。
6.Apache HBase
Apache HBase是一個(gè)使用Java語(yǔ)言編寫(xiě)的、以谷歌BigTable技術(shù)為基礎(chǔ)的開(kāi)源非關(guān)系型列式分布數(shù)據(jù)庫(kù),可運(yùn)行在HDFS文件系統(tǒng)之上。HBase提供了很好的存儲(chǔ)容錯(cuò)能力和快速訪問(wèn)大量稀疏文件的能力。HBase遵循Apache 2許可證。
7.Apache Cassandra
Cassandra是由Facebook開(kāi)發(fā)的另一個(gè)開(kāi)源NoSQL數(shù)據(jù)庫(kù),遵循Apache 2許可證。由于對(duì)HBase的喜愛(ài),F(xiàn)acebook開(kāi)始逐漸放棄使用Cassandra,但許多公司,如Netflix依然使用Cassandra數(shù)據(jù)庫(kù)為其后端流媒體服務(wù)提供動(dòng)力。
8.MongoDB
MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù),由C++語(yǔ)言編寫(xiě)。旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。MongoDB是非常流行的JSON文檔式NoSQL數(shù)據(jù)庫(kù),許多公司都非常認(rèn)同MongoDB。MTV Networks、craigslist和迪斯尼互動(dòng)傳媒集團(tuán),紐約時(shí)報(bào)以及Etsy都是MongoDB的客戶。MongoDB遵循GNU Affero通用許可證,語(yǔ)言驅(qū)動(dòng)遵循Apache許可證,10gen公司提供商業(yè)化的MongoDB許可證。
9.Apache CouchDB
CouchDB也是一個(gè)流行的開(kāi)源NoSQL數(shù)據(jù)庫(kù),它以文檔方式(JSON)存儲(chǔ)數(shù)據(jù)。CouchDB使用JavaScript語(yǔ)言作為查詢語(yǔ)言,集成MapReduce技術(shù)。IBM Lotus Notes的開(kāi)發(fā)人員Damien Katz在2005年構(gòu)建了CouchDB,用于大規(guī)模對(duì)象的數(shù)據(jù)存儲(chǔ)系統(tǒng)。CouchDB遵循Apache 2許可證,英國(guó)廣播公司(BBC)使用CouchDB存儲(chǔ)動(dòng)態(tài)內(nèi)容,瑞士瑞信銀行(Credit Suisse)的商品部也采用了它。