大數(shù)據(jù):污染者還是環(huán)保者
這個問題,就如《紐約時報》在其之前發(fā)表的一篇文章中指出的那樣:所有的硬件都在加大馬力全力運作,甚至包括工業(yè)冷卻設備和備用柴油發(fā)電機排放到大氣中廢氣和其他污染物。同時,即使數(shù)據(jù)中心運營商持續(xù)獎勵那些節(jié)能措施,連續(xù)正常運行時間超過其能源效率的運作經常在滿功率運行,但仍然有許多服務器明顯處于閑置狀態(tài)或明顯未充分利用。
隨著數(shù)據(jù)量的不斷增長,也將由此產生相當數(shù)量的數(shù)據(jù)中心帶來的污染。這一點,正如《紐約時報》所一針見血的報道的那樣,明顯與信息產業(yè)的時尚、高效率和環(huán)保的形象不符。
我并不完全同意這一評估。是的,云計算時代的數(shù)據(jù)中心確實明顯比之前的一個普通的家庭甚至是大的城市公寓大樓制造了更嚴重的污染。但總體而言(即使《紐約時報》也認可)所有的數(shù)據(jù)中心所消耗的國家的能源資源僅為2%。而且,我們還有很長的路要走,數(shù)據(jù)中心行業(yè)在提高數(shù)據(jù)中心的效率方面已然有了顯著的進步。
到更具體的大數(shù)據(jù),通過采用部署Hadoop等一系列的措施,硬件效率正在改善。根據(jù)上月的一份研究報告顯示。其中一個是VMware公司的***開源Serengeti項目,使管理員能夠部署在現(xiàn)有的硬件上部署Hadoop虛擬化。這既提高效率,同時又避免了購買新的硬件的需要。
另一個項目是Pervasive Software的DataRush產品:
DataRush和RushAnalyzer抽象出來的復雜并行Hadoop作業(yè),能夠讓用戶實時監(jiān)控I/O和CPU使用情況,并減輕內存的限制。最終能讓服務器的利用率高達80%,并且能夠更迅速和反復進行大數(shù)據(jù)分析。
《紐約時報》忽略的另一點是,大部分數(shù)據(jù)分析專家結合氣候變化和環(huán)境進一步進行的可持續(xù)發(fā)展研究都是由這些數(shù)據(jù)中心所支持的。例如,美國航天局所建立的氣候模擬中心,建立一個自定義的大數(shù)據(jù)平臺收集了多達數(shù)PB的氣象資料,以更好地預測和理解全球氣候變化。NCCS數(shù)據(jù)中心消耗了大量的電力,但研究人員通過大數(shù)據(jù)分析發(fā)現(xiàn)的卻是可能導致限制或甚至扭轉全球變暖的方法。我想說,這只是一個公平的交易。
當然,并不是每一個大數(shù)據(jù)項目的目標都是促進更大的利益。但有一些這樣的項目,在氣候科學以及醫(yī)療和教育行業(yè)。
我很贊賞《紐約時報》針對這一問題進行重點討論。但是讓我們保持現(xiàn)實的觀點。大數(shù)據(jù)的確排放了大量的污染物在大氣中,但大數(shù)據(jù)行業(yè)也正在發(fā)展更有效的計算方法,并解決一些最棘手的環(huán)境所面臨的挑戰(zhàn),人類將有可能彌補以上任何數(shù)據(jù)中心操作,更高效的計算,將直接影響大氣環(huán)境。