基于流的數據處理可以使Hadoop運行更快嗎?
Apache Hadoop分布式文件處理系統是有好處的,而且它正在獲得注意力。然而,它也有壞處。有些組織發現從Hadoop開始的話需要重新思考軟件架構,而且它所需要的數據技能也是必要的。
對于一些人來說,Hadoop的批處理模型的一個問題是,它估計在突增數據采集之間的進行批處理時會有宕機的時間。這是許多企業都的情況,當他們在本地操作,或者在白天有大量事務,但很少在晚上(如果有的話)。如果夜間窗口足夠大可以處理前一天積累的數據,那么一切都會順利。雖然對于一些企業,窗口的停機時間是小或不存在的,甚至使用Hadoop的高性能的處理,他們仍然在一天內得到的數據比他們可以在24內小時處理的要多。
對于可接受小窗口的組織,添加基于數據處理組件的方法可能有幫助,GigaSpaces的***技術官Nati Shalom在最近的一篇關于使用Hadoop更快的博客中寫到。通過不斷地處理傳入的數據轉化成有用的包和刪除那些不需要企業處理(或再加工)的靜態數據,可以顯著加速他們的大數據的批處理過程。