曾在國內外五家大廠做數據庫工程師,這是他給出的五大數據庫趨勢預測
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
出門要健康碼,買東西用支付碼……
什么都可以變成數據,近來被追捧的元宇宙甚至告訴我們連人都可以變成數據。
我們貌似已經習慣了與數據相依存的生活,但在未來,數據會發展成什么樣子,你有想過嗎?
有30多項機器學習和數據云專利的大佬Luhui Hu發了一篇博客。
他梳理了數據庫的發展以及現狀,或許從中我們可以洞見數據未來的模樣。
一起來看看吧~
數據的探索
首先,簡單了解下數據庫。
一言以蔽之,就是能夠存儲并管理龐雜的數據。
在過去的30年中,作為編程語言、操作系統中必不可少的技術,數據庫的數量在呈指數級增長,已經誕生出數百種不同的數據庫。
典型如SQL到NoSQL和NewSQL。
這些數據庫主要進行兩項工作:
在線事務處理(OnLine Transactional Processing 簡稱:OLTP);
在線分析處理(OnLine Analytical Processing 簡稱:OLAP) 。
早在20世紀60年代早期,Charles Bachman就開發了第一個數據庫。
起初對于數據庫的探索主要集中在數據庫查詢和它的模型上,包括SQL(結構化查詢語言)、XML(可擴展標記語言)和面向對象。
眾多數據庫在經過10多年的競爭之后,Oracle、SQL Server和MySQL三個脫穎而出。
它們憑借結構化查詢語言和遵循ACID(原子性、一致性、隔離性、持久性,在出現故障的情況下也可以保證數據的有效性),幾乎主導了商業市場和開源社區。
然而,數據的種類、速度以及數據量在不斷增長,這對數據庫提出了更高的要求,這時出現了一種新的數據庫:NoSQL。
不同于傳統的數據庫,NoSQL允許部分數據使用SQL系統存儲,而其他數據則使用NOSQL系統存儲。
除此之外,NoSQL還首次提出了性能效率、模式靈活性和一些新的功能,并且還擁有鍵值存儲、文檔數據庫、面向列的數據庫、圖形數據庫等。
但由于NoSQL數據庫在遵守CAP定理(不能同時滿足一致性、可用性、分區容錯性)時更注重可用性而非一致性,導致許多數據庫為了實現最終一致性或非規范化而做出妥協和優化。
這也恰恰說明了數據庫要與時俱進,契合當前數據的特點以及人們的需求。
就比如說NewSQL,它是一類現代的關系數據庫,為OLTP工作提供了與NoSQL相同的可擴展性能,同時仍然使用SQL并維護傳統數據庫的ACID保證。
在數據庫的發展過程中,還有一個不得不提的東西:數據倉庫。
它是用于數據分析和業務洞察的核心組件,但在10年前大數據平臺出現之后,人們從傳統的數據倉庫轉移到大數據平臺,它就黯然失色了。
直到云技術的出現,重新賦予給數據倉庫新的性能,使它具備了可擴展性,數據倉庫這才再次被人們注意到。
隨著高性能、高可擴展性數據云的出現,一個新的數據平臺生態系統——現代數據堆棧應運而生。
云技術通過云托管(半托管甚至完全托管)和云原生兩種方式使得數據庫自動化或半自動化。
在這其中,云技術具體是怎么操作的呢?
它主要是通過解耦數據庫的存儲和計算,重新定義體系結構。
并且存儲或計算還可以獨立擴展,提高數據庫的效率、性能和靈活性等。
除此之外,這種解耦架構還能為數據庫系統合并不同類型的存儲和計算,以實現總體的高性能和新功能。
目前,云技術正在逐步應用到數據庫中。
S3(Simple Storage Service 簡單存儲服務)因為自身的簡單性、低成本、高可用性、可擴展性等,已經成為云計算的基礎。
而且,它還演變成了數據湖,可以用來存儲、處理和保護大量結構化、半結構化和非結構化數據。
現代數據庫
講了這么多數據庫的發展,說回到現代數據庫。
提到現代數據庫,就不得不了解下面兩種架構。
首先是Data Lakehouse,它相當于是數據倉庫和數據湖的結合,可以看作是在對象存儲上運行快速的SQL。
它同時具備了數據倉庫的性能和數據湖的靈活性,能夠消除數據孤島(數據之間無法互通)和ETL(抽取-轉置-加載)過程,從而使得數據的性能、靈活性和成本效益都得到提升。
除此之外,它還統一了所有的數據,簡化了數據工程過程,并支持BI(商業智能)和AI工作負載在一起。
了解完Data Lakehouse,再來說說混合事務/分析處理 (HTAP)。
它是一種新興的應用程序架構,為熱門的現代數據庫提供了動力。
比如說谷歌發布的HTAP數據庫產品AlloyDB,具有卓越的性能、可擴展能力和可用性,并且在高并發的OLTP環境中,可以快速響應用戶的復雜操作。
而Snowflake(數據云公司)緊隨其后,發布了Unistore,同樣也支持HTAP,可以在單一平臺上同時處理交易和分析數據。
進一步來說,和Lakehouse一樣,HTAP的目標也是消除從OLTP到OLAP或從數據湖到數據倉庫的ETL過程。
并且,當前的HTAP是支持OLTP和OLAP工作負載的單一系統體系結構,而早期的數據庫只能配置為OLAP或OLTP(不能同時使用)。
未來走向
數據對于現在的生活的確至關重要,我們也能從現在數據庫的發展狀況窺見些許未來數據的走向。
大致總結了五大方向。
統一BI和AI
首先,數據庫在未來可能會統一BI和AI。
總的來說,未來數據庫的目標應該是解鎖所有數據的業務價值,并支持BI和AI的整個數據景觀,包括從描述到診斷、預測和規范等數據分析操作。
統一BI和AI不僅可以消除數據倉庫和ETL,還可以簡化管道,提高利益相關者的生產力。Data Lakehouse可以被視作是一個巨大的飛躍,但是目前還只是處于起步階段。
除此之外,在從數據到商業價值的過程中,也會激發多種的崗位需求: 數據工程師、數據分析師、數據科學家、機器學習工程師等。
專用網格
其二,未來的數據庫可以通過構建專用的網絡來滿足多樣化需求。
就目前來看,數據庫技術融合已經成為一種趨勢,如NewSQL、Lakehouse和HTAP。
但NewSQL、Lakehouse仍然是OLTP或OLAP的一種類型,CAP定理仍然成立。
并且當前的HTAP解決方案主要是OLTP,只適合小型工作負載。目前市場上可用的HTAP還遠不能作為大型企業數據倉庫或數據非結構化數據。
因此,專門構建的數據庫很有必要,它可以更好地滿足不同的業務目標,包括性能、可伸縮性或者/和特定的用例(例如,時間序列數據、圖表、搜索等)。
而且還可以分離開具有收斂層的數據庫,用于互連、統一的數據服務和一致的治理。
多云策略
前面已經提到過云技術與數據庫的結合,這在未來也是一大發展趨勢,比如說多云策略。
多云策略是指在不移動數據的情況下將公共云和私有云聯合起來。
它可以提高與多個云供應商的服務可用性,通過近距離計算減少延遲,從特定的云生態系統啟用獨特的功能,通過更多的云產品擴展全球可用性,并增強數據遵從性。
并且,多云策略還可以推動數據可觀測性、數據編目、數據共享和數據編排的浪潮。
智能數據
數據與人工智能也有結合的潛力。
目前,有三個領域的人工智能和數據相互啟用:AI for Data,AI for Database和Data for AI。
智能數據是AI for Data,它可以使數據具有數據治理、數據譜系、元數據、語義以及來自分析和人工智能的新數據等方面的要素。
預計到2025年,所有數據的10%將由生成型人工智能模型產生。這些數據包括聲音、視頻、圖像、文本、結構化數據、代碼等。
數據資產
數據庫除了有上述的發展趨勢外,還可以用作資產管理。
數據資產是將數據作為數據庫或組織或個人存儲器中的數字資產進行管理。
這樣的數據庫不僅是一個數據管理系統,而且還提供了數據可觀測性、安全和隱私、定價、數據生命周期管理等。