左手Symphony 右手GPFS Platform Computing打造大數據方案
IBM技術計算解決方案范圍從部門集群延伸到超級計算機,使企業能夠通過為廣泛的商務和業務挑戰提供高性能基礎架構來實現更好的成果。技術計算與高性能計算的緊密相關,它把高性能計算機系統使用到其它的行業中, Platform Computing擔負了這個職責,Platform Computing是IBM技術運算的戰略支撐,在集群、網格和云管理方面積累了雄厚的技術基礎和客戶案例。
IBM Platform Computing軟件技術理念
我們先來看看與IBM Platform Computing有關的一組數字,Platform Computing是商用HPC的事實標準,全球60%的***金融服務機構采用了Platform Computing,Platform Computing管理的CPU數量超過500萬顆。
IBM Platform Computing軟件技術理念就是讓客戶能把成千上萬臺計算機當作一臺來使用和管理。為了達到這個目的,IBM Platform Computing采用了3層軟件功能,***層是資源整合,把企業所有的服務器及操作系統的軟硬件整合成一個邏輯層,交給第二層資源分配來處理,第二層是資源分配,是網絡層次的一個概念,把資源整合的邏輯層根據應用的使用、資源情況動態分配,大幅提高資源的利用率,并同時滿足用戶的服務標準。第三層是資源訪問/使用,使用戶通過API或UI界面或APP能夠清楚明了地使用資源。如果是一個并行任務,用戶可以通過一個中間件API調用資源,滿足并行應用。
這三層邏輯抽象,就構成了完整的Platform Computing的軟件應用層次,可以支持多用戶、多應用、共享、動態的平臺,實現主流的技術計算。
Symphony是Platform Computing平臺一個并行分析的計算平臺,從理解的角度,與WEB服務器的應用服務器類似,可以把Symphony看成是Platform Computing技術運算平臺的應用服務器,它包含針對低延遲、可靠性和資源共享進行優化的MapReduce,還可以兼容 Apache Hadoop,進行大數據分析。
如何用Platform Symphony做大數據分析
IBM Platform Symphony是一個并行分析的計算平臺,可以支持各種類型的計算密集型和數據密集型的應用。從開發者的角度來說,Symphony是一個可以成百上千倍提高運用速度,提供低延時、高并行度、高可靠性的應用中間件。同時,還可以把Symphony看成是一個面向技術運算的服務器。數據顯示,Symphony遠程并行服務的延遲低至毫秒級,每秒鐘可以同時啟動17000個服務任務,每一個應用可以使用多達10000個核,每一個集群可以支持多達40000個核,可以實現多個任務、多個應用同時運行。
不僅如此,Symphony還可以同時支持計算密集型應用和數據密集型應用的管理軟件。隨著分析工作負載的計算與數據密集性的不斷增高,許多類型的應用程序都要求快速分析使用內存中的數據網格存儲的或分布式文件系統上的大量數據。不同于其他網格管理解決方案,Platform Symphony Advanced Edition(Symphony的高級版)并不需要單獨的基礎架構來支持這些數據密集型問題。它包含針對低延遲、可靠性和資源共享進行優化的MapReduce,還可以兼容 Apache Hadoop 。用戶可以通過使用此功能在相同的共享分布式基礎架構上運行使用其他語言編寫的Hadoop和非Hadoop應用程序。此外,Platform Symphony的多租戶架構可以使其在單一的共享式基礎架構上部署多個 MapReduce 引擎。
就工作環境而言,Platform Symphony客戶機和服務可以在不同的操作系統、語言和框架上實施,集群還可包含運行多個操作系統的節點。而且,Platform Symphony可在相同的集群中管理多種不同類型的主機,并控制每個主機上運行的應用程序服務。
Platform Symphony支持GPFS
IBM Platform Symphony支持各種類型的數據,開源MapReduce只支持開源的HDFS,IBM Platform Symphony支持包括IBM GPFS、HDFS、數據倉庫以及其它數據來源和輸出端,甚至“數據的輸入端和輸出目標的類型可以不同”。
GPFS是一個高性能的,共享磁盤空間的文件系統的管理方案。GPFS運用于集群環境中,提供快速可靠的數據訪問。通過GPFS,同一個集群中的多個節點可以同時訪問同一個共享文件。
GPFS還可以提供在線存儲管理、可擴展的訪問和集成的生命周期管理工具,并且有能力管理PB級的數據和數十億的文件,可以大大減少切換時間,減小客戶應用的不可用時間。
GPFS可以幫助企業降低存儲管理成本,并能減少數據重復和更有效的使用離散的存儲組件,使之成為一個邏輯整體,使信息呈現一個集中的、高性能存儲的架構。GPFS還可以幫助改善服務器硬件利用率,從任何節點通過允許動態存儲訪問所有數據,GPFS多層次的方法可以減少存儲成本。
搭載Power Linux的大數據方案
隨著開源開發平臺的迅猛發展,Linux市場快速增長,也讓IBM看到了Power Systems的新機遇,并希望在這個市場有所斬獲。其實早在兩三年前,Power Systems就開始涉及Linux市場,從最早的Open Power到現在的Power Linux,Power Systems一直都在根據市場的發展不停的改變。
作為運行Linux軟件的全新Power硬件平臺,在Power Linux產品方面,IBM為其PowerLinux 7R1(單插槽)與7R2(雙插槽)設備提供了Solarflare的高性能低延遲10Gb每秒以太網適配器。有趣的是,Solarflare卡在網絡中嵌入了一套現場可編程門陣列(簡稱FPGA)。在Open Onload開發環境的支持下,經過調整的FPGA能夠在數據到達服務器之前完成各類操作任務——這在高頻數據交互環境下意義非凡,而且也是IBM Power設備對抗x86設備的有力武器之一。
基于Platform Symphony和Power Linux的大數據方案
為了進一步推廣Power Linux產品的應用,打造完善的生態系統,IBM“天合計劃”通過將 VAD(增值分銷商)合作伙伴的軟件預裝在PowerLinux服務器上,打包成為“CAMP Box”解決方案,幫助用戶大幅降低Power平臺的使用成本和PowerVM虛擬化技術門檻,進一步豐富Power企業入門級服務器產品線,讓用戶同時享受開源和Power平臺的各種優勢技術,為用戶提供更多“智慧的運算”的選擇平臺。
Power Linux的出現,為搭載Symphony的硬件平臺提供了新的選擇,軟件方面,Symphony一直是處理非結構化數據的方案,硬件方面,Power Linux具備了從Power產品線延續下來的高度RAS特性,兩者的結合為處理大數據提供了完整的打包方案,無疑將進一步發揮Platform對大數據處理的優勢和價值。