6個優秀的開源文件系統助力大數據分析
大數據在今天吸引了大量關注,個人、企業和政府機構之間的互動創造了數據的海洋,通過有效識別、訪問、篩選和分析其中部分數據能帶來新的見解和益處。大數據需要大量的儲存空間,先進的存儲基礎設施必不可少,需要能在多臺服務器上伸縮自如的存儲解決方案。有許多優秀的開源文件系統能用于深入分析大數據,其中包括:
QFS
Quantcast File System (QFS) 是一個高性能、容錯、分布式的文件系統,其開發是用于支持 MapReduce 處理或者需要順序讀寫大文件的應用。
HDFS
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統。HDFS有著高容錯性(fault-tolerent)的特點,并且設計用來部署在低廉的(low- cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現流的形式訪問(streaming access)文件系統中的數據。HDFS開始是為開源的apache項目nutch的基礎結構而創建,HDFS是hadoop項目的一部分,而 hadoop又是lucene的一部分。
Ceph
Ceph是加州大學Santa Cruz分校的Sage Weil(DreamHost的聯合創始人)專為博士論文設計的新一代自由軟件分布式文件系統。自2007年畢業之后,Sage開始全職投入到Ceph開 發之中,使其能適用于生產環境。Ceph的主要目標是設計成基于POSIX的沒有單點故障的分布式文件系統,使數據能容錯和無縫的復制。2010年3 月,Linus Torvalds將Ceph client合并到內 核2.6.34中。IBM開發者園地的一篇文章探討了Ceph的架構,它的容錯實現和簡化海量數據管理的功能。
Lustre
Lustre是一個大規模的、安全可靠的,具備高可用性的集群文件系統,它是由SUN公司開發和維護的。
該項目主要的目的就是開發下一代的集群文件系統,可以支持超過10000個節點,數以PB的數據量存儲系統。
GlusterFS
GlusterFS 是一個集群的文件系統,支持 PB 級的數據量。GlusterFS 通過 RDMA 和 TCP/IP 方式將分布到不同服務器上的存儲空間匯集成一個大的網絡并行文件系統。
PVFS
PVFS 是一個高性能、開源的并行文件系統,主要用于并行計算環境中的應用。特別為超大數量的客戶端和服務器端設計。模塊化結構設計,可輕松的添加新的硬件和算法支持。
PVFS 側重高性能訪問大數據集,包含一個服務器進程和客戶端開發庫,完全基于用戶級代碼編寫。
特征:
- 基于對象的設計思路
- Optimized for regular strided access
- 獨立數據和元數據的存儲
- 優化的 MPI-IO 支持
- 多種網絡支持
- 無狀態的服務器
- 用戶級的實現方案
- 系統級接口
- 可在很多 Linux 版本上構建
- 支持多數平臺,包括 IA32, IA64, Opteron, PowerPC, Alpha, and MIPS
原文鏈接:http://www.linuxlinks.com/article/20130411155608341/FileSystems.html