現代數據架構的探索與實踐:知語數據編織系統
一、背景知識簡介
1. 歷史回顧
為什么需要數據編織?回顧過去幾十年,數據管理和知識管理是兩條平行線,獨立發展。現在到了認知人工智能時代,我們知道,數據原本就是分布式的,未來也將是分布式的。過去的數據管理方式和未來的數據管理方式如何與知識管理無縫銜接是當前需要思考的重要問題,數據編織正是在這樣的背景下誕生的。
2. 技術趨勢
美國的數據編織技術已相對成熟,國內則需要我們一起努力推動數據編織的發展,應用先進的數據管理思想,以適應人工智能時代的需要。
3. 數據管理面臨的問題
問題之一:數據規模急劇擴大,數據處理速度遠慢于數據增長速度,利用傳統數據架構處理非結構化數據效率低。
問題之二:在混合多云環境中,數據處理“高并發”,多重數據困境和復雜性增加。
問題之三:數據高度分散,存在“數據孤島”,煙囪式的封閉數據架構造成數據運用時的缺失與不便。
4. 傳統數據集成方式的缺陷
重復數據:數據分層存儲造成大量數據冗余。出現這一問題主要是為了解決性能問題,為了加速查詢,不得不做一定的冗余,物化部分信息。其不僅意味著昂貴的存儲空間價格;而且不夠靈活,每次修改都需要對重復數據進行額外操作。
非共享的元數據規范:不可共享的元數據規范降低了靈活性,難以管理,將會導致不一致的報告結果。
靈活局限性:在商務智能系統中采用抽象化和封裝的概念,對于提高自身的靈活性、更容易地實現改變和采納新的工程技術非常重要。
數據質量下降:多數據副本導致的問題。
有局限的運營報告支持:從生產數據庫中獲取資源到報告中,數據需要多次復制到另一區域,在極短時間內完成不可能。大多數商務智能沒有按照運營報告與運營數據關聯的方式來設計。我們不得不簡化結構來支持運營系統,最根本的是移除數據存儲區和最少化復制步驟來簡化結構。
5. 數據管理方式能力對比
數據編織并非要取代數據倉庫或數據湖,數倉和數據湖是物理集成的方式,而數據編織則是在邏輯層面上更好地管理數據,因此具有一些天然優勢。
6. 數據編織的變遷
在數據編織 1.0 時代,Gartner 將數據編織定義為一種設計理念,充當數據和連接過程的集成層。當時只是定義了框架,并沒有給出深入的實現方式。
2022 年,進入數據編織 2.0 時代,外部數據和邊緣數據被更多地納入中央數據范圍,因此涉及如何將內部數據和外部數據做互聯互通。
2024 年 3 月份,美軍提出統一數據參考架構 UDRA,用數據編織的技術實現數據網格的架構,標志著數據編織已進入 3.0 時代。我們在做自己的信創產品時,可以直接基于 3.0 時代的架構。
7. 數據網格
在數據網格架構下,首先要把數據當作產品,還要明確所有數據的所有權,以及如何做自助服務和聯合治理。數據編織 3.0 時代可以很好地支持數據網格的實現。
二、知語數據編織
1. 知語數據編織智能體
知語數據編織智能體,旨在將數據編織引擎、大模型和知識管理全部網絡化,構建虛擬數據網絡。隨著人工智能技術的推動,無論元數據還是數據,都在一套體系下進行數據編織,當然具體實現的技術引擎可能不同。
我們不僅要解決單體模型的問題,還要解決主從模式部署、聯邦式網絡部署模式的問題,要實現與大模型之間的無縫整合。因此我們設計了如下圖所示的智能體架構。
過去在做這種架構的時候,常常會把數據層做得很大。但是在數據編織體系下,重心回到了元數據的處理。元數據在整個數據編織網絡體系下,是唯一的一個知識審核點,也就是說知識表示是通過元數據平臺來表示的。我們所處理的數據還是分散在各處的,并不需要物理上全量集中,而元數據會被統一集中管理。包括技術元數據、管理元數據、業務元數據,都被統一管理,并且無論是結構化數據還是非結構化數據,所有的元數據模型都是統一的,甚至一些儀表盤、工作流程、機器學習模型的元數據也都統一在一個圖模型的表示方法之下。
這里就會涉及如何自動提取這些元數據。知語主動元數據管理平臺,通過推拉的方式,實現了全局的元數據服務。類似于京東淘寶,在可視化的產品平臺上可以選擇你所需要的數據產品。
知語數據聯邦管理平臺能夠通過對物理位置分散的不同系統的數據進行聯合查詢、并行查詢、水平集群擴展等方式,解決物理分布式數據的分析和洞察問題。我們并不需要從各處把數據物理集中起來,而是在邏輯層面訪問和使用這些數據,并且與在任何應用客戶端訪問數據是沒有差異的,這就是聯邦的方式。
知語數據編織引擎現已支持 50 多種數據做數據聯邦虛擬化,整體分成兩類,一類是結構化數據,另一類是非結構化數據。通過圖模型,把結構化和非結構化文件集成在一起,構建數據目錄,以供查詢。另外,為了更好地實現互聯互通,還加入了語義增強的邏輯。
其它一些功能特點包括,支持各種類型用戶角色,可并行已有數據平臺部署,支持多云混合,以及支持分布式數據的統一訪問。
目前支持的數據源包括:HDFS、關系型數據庫、NoSQL 數據庫、對象存儲、云數據倉庫,以及其它一些數據源,如 Kafka、Elasticsearch 等。
最小部署環境要求如下圖所示:
知語數據編織平臺支持的第一種部署架構為單體模式。所有共享數據作為客戶端,所有應用只知道數據編制平臺提供的接口,并不知道數據源實際在哪。
第二種部署架構是主從模式,每個數據領域部署一套數據編織,如果需要其它領域的數據,則通過主平臺來訪問。
第三種部署架構是聯邦模式,即數據網格模式,各領域部署了數據編織后,域之間聯通,從任何點接入都可以訪問全域數據。
目前推出了社區版、企業版和高級版三個版本,各有一些不同的能力,如下圖所示:
三、場景實踐案例
接下來介紹一些成功案例。
在第一個案例中,客戶有 10 個采用不同技術構建的數據倉庫,希望將其連接在一起。每天每個廠有超過 200G 的數據,如果將數據復制一遍,成本會非常大,因此采用了輕量級的數據編織的方式。
第二個案例中,舊的架構是將數據在物理上傳到中心節點,時延高。為滿足審計要求,需要實時查詢、計算。針對這些需求,應用了數據編織技術。
四、總結與展望
在當今數據不斷增長的情況下,可以通過物理和邏輯兩種方式將數據整合并統一管理,物理上可以通過數據湖,而邏輯上就可以通過數據編織的方式。
現代數據架構如下圖所示,原有數據中臺依然保留,根據特定需要進行物理集成,而在此之上,加入數據編織,實現邏輯上的集成,并對外提供服務。
我們將數據編織能力成熟度定義了 L0~L4 五個級別,首先需要思維上的改變,并具備虛擬化的能力,在此基礎上統一元數據,利用知識圖譜,最終實現知識自動化。
數據編織是人工智能時代的數據基礎設施。底層是各種物理數據源,中間建立數據編織層,在此基礎上是各種模型,在模型之上是智能體應用。
以上就是本次分享的內容,謝謝大家。