MongoDB出新招,增加對Hive的支持
MongoDB的所有者10gen宣布其Hadoop連接器將會在本周二進(jìn)行更新升級。新版本中將包括一些非常重要的新功能并且加入了對Hive(類似SQL框架和Hadoop的查詢語言)的支持,它能夠把本地MongoDB文件存儲到Hadoop上,還能在MongoDB的同一的數(shù)據(jù)集合中運行增量的MapReduce作業(yè)。
公司的產(chǎn)品營銷總監(jiān)Kelly Stirman表示,MongoDB的Hadoop連接器已經(jīng)上市了一段時間,而且被許多企業(yè)機(jī)構(gòu)廣泛的運用。不過周二的更新將會是MongoDB自2012年4月發(fā)布以來最為重要的一次升級。
也許大多數(shù)人并沒有注意到,MongoDB和Hadoop在過去的幾年已經(jīng)變得非常的流行。Stirman表示,由于支持JSON類型文件,在很多Web和手機(jī)應(yīng)用中,MongoDB都是被作為操作數(shù)據(jù)庫,而Hadoop也是被很多公司選作大數(shù)據(jù)處理和分析平臺。特別是在大型網(wǎng)絡(luò)公司和世界500強(qiáng)企業(yè),通常都并排部署了MongoDB和Hadoop。
MongoDB連接器現(xiàn)在已經(jīng)非常的流行,因為它允許用戶可以在數(shù)據(jù)庫中預(yù)先處理MongoDB數(shù)據(jù),而無需把數(shù)據(jù)發(fā)送到Hadoop中處理。在現(xiàn)有支持MapReduce 和Pig的基礎(chǔ)上增加對Hive的支持,由于Hive中類似SQL的特性,使用MongoDB連接器來連接Hadoop數(shù)據(jù),已經(jīng)被很多企業(yè)廣泛使用。
在Hadoop分布式文件系統(tǒng)上支持MongoDB本地BSON文件意味著用戶可以備份他們的數(shù)據(jù)庫資料到Hadoop中,同時用戶也可以處理這些數(shù)據(jù)資料,這樣就避免了在MongoDB集群上添加撤銷負(fù)載。
Stirman把在MongoDB集合上運行增量MapReduce作業(yè)的能力稱為近似 “濃縮進(jìn)程”。 用戶以前只能在數(shù)據(jù)庫中一個新的集合上才可以運行MapReduce作業(yè),但是MongoUpdateWriteable這種新的技術(shù)特性可以讓用戶在現(xiàn)有的集合上運行MapReduce作業(yè)。
數(shù)據(jù)庫行業(yè)觀察人士可能會質(zhì)疑MongoDB的新特性,它是不是僅僅會改善MongoDB-Hadoop開發(fā)環(huán)境的現(xiàn)有功能,或者它是否能以某種方式來影響市場份額,這似乎是Stirman未來需要考慮的問題,至少目前已經(jīng)考慮到那些使用Hadoop的公司了。Stirman指出10gen在營銷上可能會遇到像Cassandra和HBase這樣有競爭力的對手,不過目前而言, “從本質(zhì)上來說,這三者(Cassandra、HBase以及MongoDB)相對于Hadoop,都是對等的。”
對等?也許吧——至少在某種程度上用戶還是愿意擴(kuò)展Hadoopde 的規(guī)模來彌補(bǔ)數(shù)據(jù)庫擴(kuò)展性的欠缺。當(dāng)然,也有很多用戶選擇其他的NoSQL數(shù)據(jù)庫產(chǎn)品而非MongoDB,這是源于所選的應(yīng)用程序不同。