揚帆大數據時代,英特爾攜手星環打造全閃存分布式數據庫
數字化時代,我們的的一舉一動,一言一行,都幻化成了海量的數據。
許多人都有過這樣的經歷——你可以隨時在銀行、運營商查詢最近幾個月或者近一年的賬單;但當時間跨度超過一年的時候,系統查詢的時間就要長一些,你可能會間歇性的等待幾秒鐘。這并不是系統在“偷懶”,相反它正在全速幫你從曾經的數據庫中檢索數據。
這就是在線業務與離線業務的區別。對于那些檢索頻次高、應用范圍廣的數據,許多都存儲在在線數據庫中,方便用戶隨時調??;而對于那些時間比較長或者檢索頻率低的數據,更多時候會存儲在離線數據庫中,這樣就可以進一步降低使用成本,也提升了整個系統的資源利用效率。
但是這種好處也并不是一概而論的。數據查詢與檢索是一件復雜性的工程。要知道,目前中國用于商用的數據庫種類達到了60多種,這還不包括許多企業自行開發的開源版本。換句話說,這些不同品牌的數據庫很容易產生數據應用的壁壘,也讓你在數據應用中遇到包括應用復雜性、數據處理速度、系統吞吐能力、平臺部署與調優等多個層面的問題,相應的也就影響了用戶決策,制約行業發展的關鍵。而想要解決這個問題,最重要的就是提升數據檢索的效率,即提升數據處理性能與系統吞吐能力。
以最看中安全、穩定性的金融業務為例。我們許多人都有跟銀行打交道的經歷。以往我們去銀行辦理業務大多是對應后端的結構化數據庫,比如我們的每一筆交易都在這里;但是如今銀行也強調非結構化數據的應用,比如人臉識別、比如賬戶開戶的全程錄像,這些非結構化的數據同樣需要存儲在數據中,也使得原本的數據應用形態和方式產生了改變。
在傳統環境中,數據庫大多針對結構化數據所構建,所采用的也多是機械硬盤;許多人對于數據庫的性能雖然有所認知,但是受限于吞吐量能力,大部分人對于數據庫性能的要求也并不高,甚至穩定性的要求更勝一籌。但是伴隨著大數據和人工智能時代的來臨,高效率、低延遲、實時響應等需求的出現使得傳統數據庫已經不再復合應用需求,越來越多的供應商也開始結合全閃存開發新的數據庫平臺,以滿足用戶對于極致性能的需求。
分布式數據庫的出現恰恰是解決了數據利用的效率與安全性等諸多問題。集群中的每臺服務器可能有DBMS的一份完整拷貝副本,或者部分拷貝副本,并具有自己局部的數據庫,位于不同地點的許多計算機通過網絡互相連接,共同組成一個完整的、全局的邏輯上集中、物理上分布的大型數據庫。這樣無論是從數據調取的效率還是在數據安全、穩定等多個方面都有所提升。
星環科技就是這其中的佼佼者。作為一家專注于企業級大數據基礎軟件的公司,星環科技自創立時起就推出了多款大數據基礎軟件平臺,特別是其中一款名為Transwarp ArgoDB的分布式關系型數據庫產品獲得行業的認可與青睞。甚至在幾年前,星環科技還憑借Transwarp ArgoDB成為了英特爾精選解決方案之一。而伴隨著不久前的升級,Transwarp ArgoDB也采用了全新發布的第三代英特爾至強可擴展處理器,從而將性能表現提升到了新的層級。
Argo這個單詞取自太陽帆,由一個中心出發展開多個葉片,同時也是星座名,星環科技用Argo來命名自家的分布式閃存數據庫產品,體現一個多模數據庫可以滿足多種應用場景,同時太陽帆螺旋結構具有運動感和速度感,體現出ArgoDB的高性能,也是希望Argo這艘太陽帆能幫助客戶徜徉在大數據的世界當中,與大家一起迎風破浪,披荊斬棘。事實上,結合當下開源開放的趨勢,分布式數據庫也成為了許多企業的選擇,Transwarp ArgoDB更是憑借完整的SQL支持、分布式事務支持、實時與批量數據接入、海量數據OLAP和離線分析、支持三級混合存儲等五大特性獲得了行業的認可。而在這五大特性之中,后三者都與全閃存的性能直接相關。
比如“實時與批量數據接入”。ArgoDB的這一特性支持實時和批量兩種數據導入方式。在線業務使用實時數據接入,保證數據時效性;數據倉庫等離線業務使用批量數據導入方式,吞吐更高。很顯然,這就要求系統具備實時響應的效果,而借助于英特爾閃存平臺的優勢,ArgoDB不但保質保量的完成數據寫入任務,還可以在PB級別的數據量上同時支撐離線分析和高并發的實時/準實時的數據集市類業務,讓系統的存儲與計算能力得到更大幅度的提升,具備了更大的性能優勢。
更重要的是,ArgoDB支持內存/閃存/磁盤的三級混合存儲,這讓它不僅僅具備了全閃存的優勢,還能夠兼容傳統的數據庫平臺。比如對于同一張報表來說,DBA可以指定副本的存儲策略,如一副本存儲在閃存,兩副本存儲在磁盤,這樣多種備份方式大大提升了系統安全性和可靠性。多級存儲也使得用戶可以更好的在性能和硬件預算間找到平衡點。
俗話說——火車跑得快,全憑車頭帶。想要讓數據處理速度更上一層樓,除了提升存儲介質與算法優化之外,更重要的、更直接的方式就是采用更強大的計算平臺,為此星環采用了第三代英特爾至強可擴展處理器,通過軟硬件結合的方式為客戶提供超強算力。
為了驗證這種提升,星環科技與英特爾在測試中選擇了TPC-H基準測試。這是一個面向決策支持系統的基準測試,由一套面向業務的即席查詢和并發數據修改組成,模擬數據庫日常應用的情況,可以檢索大量數據,執行高度復雜的查詢,并為關鍵業務問題提供答案。
(基于Transwarp ArgoDB2.0)
在實際測試中,星環科技選擇了計算密集的相關查詢 1、4、5、9、10、16、18、20 和 21等項目。而測試結果顯示,相較于上代CPU, 第三代英特爾至強可擴展處理器使得星環科技Transwarp ArgoDB的每小時查詢處理數(Query Per Hour,QPH)提升了40%。這大大解決了以往計算密集作業下CPU性能不足的效率瓶頸,更好地滿足離線批處理數據倉庫、實時數據分析平臺、OLAP 數據庫、全文檢索數據庫等負載的計算要求,也讓整體性能獲得提升。
不僅如此,借助于英特爾固態盤DC P4510、英特爾固態盤D3 S4510和英特爾網卡等產品,整個英特爾至強可擴展家族也對性能實現了加成,這樣對于用戶來說也一勞永逸的解決了后續應用困難。而從用戶最關心的成本控制角度來說,正因為新平臺性能的優勢,使得原本單服務器節點的QPH性能得到巨大提升,用戶能夠減少基礎設施所需要部署的服務器節點規模,減少相應的采購、能源、運維、空間等成本,也符合當下國家強調的“碳達峰”、“碳中和”需求。
正如星環科技聯合創始人兼副總裁朱珺辰所強調的那樣:“近年來,星環科技與英特爾進行了廣泛而深入的合作,不但持續在英特爾架構上優化大數據、云計算和人工智能產品,還合作加快第三代英特爾至強可擴展處理器的應用落地。此次在星環科技Transwarp ArgoDB測試中的實例顯示,第三代英特爾至強可擴展處理器在性能上相對上代產品有著顯著的優勢,結合精選解決方案在可用性、擴展性等方面的優勢,能夠幫助用戶加快以數據為中心的變革。”
如今,隨著互聯網的飛速發展,人類社會的數據量迅速激增,我們一年產生的數據就相當于人類進入現代化以前所有歷史的總和,甚至許多業務量很可能在短短的一個月內突然爆發式地增長幾千倍,對應的數據也很可能快速地從原來的幾百GB飛速上漲到了幾百個TB,這對于各行各業都產生了全新的挑戰,尤其對于一貫以穩健著稱的金融行業來說,更需要的全面的轉型與升級。
在這個過程中,我們更需要能夠快速響應、零延遲服務的數據平臺,而基于第三代英特爾至強可擴展處理器的星環分布式數據庫Transwarp ArgoDB則扮演了更為重要的角色,使得以銀行為代表的金融業無論是在結構化還是非結構化數據上都能夠快速響應,同時也幫助金融應用更快落地,使得業務本身無論從運行速度還是從用戶體驗上都有了全新的升級,更適合未來大數據、數字化的應用需求。