四款有針對大數據的數據處理系統
為了從大數據中挖掘出有價值的信息,需要有針對大數據的數據處理系統。目前,一些大型的互聯網企業,例如谷歌、Facebook 等企業都研發了針對大數據的數據處理系統。
1)批量數據處理系統:
這種系統是對互聯網中產生的海量的靜態的數據進行處理。例如對客戶在網站中的點擊量和網頁的瀏覽量等數據進行處理,從而或者客戶對哪些商品比較偏愛。谷歌公司研發的 GFS(Google File System,即大規模分散文件系統)和 Map Reduce(大規模分散 Frame Work)系統就是典型的批量數據處理系統。
2)流式數據處理系統:
這種系統是對互聯網中大量的在線數據進行實時處理。這些在線數據具有復雜的格式,并且數據是連續不斷地來源于眾多的渠道,該種系統需要對這些實時的數據進行實時的、快速的處理。例如生物體中傳感器的數據、商場人流量數據、定位系統的數據都需要高效地實時處理。Storm系統是典型的流式數據處理系統,Twitter、Spotify、雅虎等公司都使用該系統。
3)交互式數據處理:
這種數據處理系統可以用人機交互的方式實現數據的處理。例如互聯網搜索引擎。Dremel 系統是典型的交互式數據處理系統。
4)圖數據處理系統:
該種系統用于處理大數據中的圖數據。例如社交網絡中人與人之間的社會關系圖數據。Spark系統是典型的圖數據處理系統。
隨著社交網絡的發展、傳感器的廣泛應用、物聯網的不斷擴展,大數據已經深入我們生活的方方面面,針對大數據的處理也越來越深入,如何更高效的挖掘大數據中蘊藏的價值需要不斷地研究和改進。