說到大數據,有誰會想到數據庫嗎?
說到大數據,不知道大家的***反應是什么?
Hadoop,一個由Apache基金會所開發的分布式系統基礎架構。
有人會想到數據庫嗎?應該不會!
因為在人們的概念中,傳統關系型數據庫主要應用在OLTP(On-Line Transaction Processing聯機事務處理過程)等,以交易為核心的業務,通常是關鍵業務。
但是不知道大家注意到沒有:新的12cR2的一大特點就是順應大數據應用的需要,提供從數據倉庫到大數據的支持。“一個數據庫同時支持OLTP和OLAP(Online Analytical Processing, 聯機實時分析) ,不需要劃分在線/離線的業務。”該數據庫廠商說。
如今,關系型數據庫可以保存任何類型的數據,能夠支持關系型數據SQL查詢,也能夠提供針對Hadoop、對象存儲的NoSQL查詢能力,還可以訪問JSON格式的數據。
如此,豈不就是一個大數據分析的完整解決方案嗎?
華為MPP+Shared-nothing數據庫
圖靈獎得主,數據庫領域的布道者Michael Stonebraker曾經說過:傳統數據庫架構是30年前,以OLTP應用為主設計的。如今,大數據屬于OLAP,應采用新技術架構。
新技術思路是要由“一種架構支持所有應用”轉變成“多種架構支持多類應用”,Stonebreaker說。
傳統數據庫給人另外一個印象就是價格昂貴。數據庫在數據一致性、可靠性、安全性等技術環節上所表現出來的水平,讓數據庫適用于關鍵業務應用,以及分析報表等。
但大數據的特點有所不同,其中很重要一點就是其價值密度比較低,需要的存儲容量會比較大,有時會達到PB級。如此一來,傳統關系型數據庫,數據進不去、查不出、存不下和擴容難等問題就暴露無遺。
針對傳統關系型數據庫存在的問題,一種新的構建于x86開放平臺上的MPP(Massively Parallel Processing)架構+shared-nothing架構的企業級數據庫產品應運而生。
華為GaussDB 200企業級數據庫無疑是其中的佼佼者。
華為GaussDB 200
華為GaussDB 200開始于2012年,研發團隊分析了業界數據庫相關理論和技術,在基于傳統關系型數據庫的SQL引擎和事務強一致性等基礎上,進行了分布式、并行計算的改造。歷時6年,打造了一款架構領先的分析型數據庫,為各行業PB級海量數據分析提供有競爭力的解決方案。
GaussDB 200可以很好兼容標準ANSI SQL 99/2003語法和PostgreSQL生態。
與傳統數據倉庫產品使用專有硬件不同,GaussDB 200運行在通用X86服務器上,采用MPP+shared-nothing架構,因而能夠具備良好的擴展性。可以在不中斷業務的前提下,實現數據庫的在線擴容。
這個擴容采用表級擴容機制,即完即用,支持未擴容表與已擴容表之間關聯分析;通過引入一套增量機制記錄擴容重分布過程中的數據修改(增刪改),待基線數據重分布完成后,將增量數據Merge到擴容后的集群中;提供任務自動等待Retry機制,確保新舊數據切換業務不中斷、無感知。
GaussDB 200 MPP節點間并行+SMP單機多核并行+列存向量化指令集并行+LLVM機器碼編譯等技術,可以充分發揮集群硬件資源,能夠達到萬億級數據查詢秒級響應的能力。其中通用X86服務器上,可以提供彈性集群、跨代兼容等特性,避免硬件鎖定。
在架構設計上,硬件中磁盤、交換機、網卡等均采用高可用設計;軟件上則采用全組件高可靠架構,協調節點多活,數據節點***主+備+Handoff三重數據保護,GTM(Global Transaction Management)等進程采用主備方案。可以確保集群中任意一個節點故障業務不中斷。
安全性方面,新產品支持客戶端連接的SSL認證服務;并通過了華為網絡安全實驗室ICSL認證,遵從英國頒布的網絡安全標準。
GaussDB 200支持通過SQL訪問HDFS上的數據,支持C UDF,支持全文檢索,從而為數據業務創新,提供簡單應用的技術手段。
小結
很多時候,大數據應用并不是技術之爭,適用就好。與數據庫相比,Hadoop能夠提供更加細顆粒度的數據分析,有些用戶也是利用Hadoop來解決傳統數據庫數據分析性能不足的問題。但也有很多時候,數據建模也成為了很多用戶難以逾越的障礙。任何技術應用是要和應用的場景進行對應,用戶要根據自身的情況選擇最合適技術路線。