面向 AI 的數據生態系統
[引] 本文編譯自https://cacm.acm.org/magazines/2021/11/256400-there-is-no-ai-without-data/fulltext,文中針對的是工業企業, 實際上,對大多數企業都有著一些參考意義,尤其是關于元數據的管理和自治。
人工智能已經從天花亂墜的宣傳逐漸變成了現實。算法在機器學習和深度學習方面的進步,計算能力和存儲能力的顯著提高,以及數字化所產生的大量數據,使人工智能很可能改變所有行業的游戲規則。人工智能有潛力從根本上改進業務流程,例如,在制造業中進行實時質量預測,并并產生新的業務模型。傳統產業正面臨著一個根本性的變化: 從實物產品的生產到工業4.0中通過人工智能流程優化和服務交付。
盡管人工智能的潛力巨大,工業企業也對人工智能技術進行了大量投資,但人工智能尚未兌現在行業實踐中的兌現。工業企業的核心業務尚未得到人工智能的賦能。人工智能解決方案的成功案例往往是個案,例如工廠中機器的運行優化。為什么呢?在大多數情況下,數據問題是傳統企業未充分采用人工智能的主要原因。
一般來說,數據準備和數據質量是人工智能和數據分析的關鍵,這并不是什么新鮮事,因為沒有數據就沒有人工智能。然而,工業企業中人工智能面臨的數據挑戰遠遠超出了檢測和修復臟數據的范圍。人工智能通常用于特定用例的數據供應和數據工程,從而形成一個異構的、多語言的企業數據環境。這導致了各種各樣的數據挑戰,并限制了人工智能的全面應用。
1、工業企業的AI現狀
以AI 和數據分析為基礎,并概述一下傳統企業的業務,進而刻畫一下人工智能的應用現狀。
1.1 人工智能和數據分析
人工智能一般是指機器執行認知功能的能力。人工智能方法可以細分為演繹方法即模型驅動(如專家系統),或歸納方法即數據驅動方法。數據驅動方法特別是機器學習和數據挖掘方法,在過去幾年中為人工智能開辟了新的應用領域。數據分析可以作為各種數據驅動分析的總稱,包括 BI 和報表。
1.2 工業企業的業務
工業企業的業務包括實物的工程制造,例如,加熱系統或電氣傳動。為此目的,工業企業通常將各種工廠組織成業務單元來運營一個制造網絡。工業企業的 IT 環境通常包括不同的企業 IT 系統,從基于產品生命周期管理(PLM)的企業資源計劃(ERP)系統到制造執行系統(MES)。在工業4.0和物聯網(IoT)應用中,工業企業推動了價值鏈的數字化。因此,過程和產品的 AI 支持具有戰略重要性。為此,近年來,工業企業建立了數據庫,引進了人工智能工具,并創建了數據科學團隊。
1.3 當前狀態: 人工智能孤島
上圖顯示了工業企業中人工智能的現狀。企業已經在整個產業價值鏈中實現了各種各樣的人工智能用例: 從支持 iot產品的預測性維護到生產過程優化的質量預測,再到產品生命周期分析和客戶分析。用例將不同來源(如 ERP 系統和 MES)的數據組合在一起,通常作為單個用例的獨立解決方案實現。這意味著,人工智能是以“孤島”的形式執行的,用于特定用例的數據工程,以及特定用例的人工智能工具和適合特定用途的機器學習算法。一方面,人工智能孤島方便了具體案例實現的靈活性和探索性。另一方面,它阻礙了 AI 的重用、標準化、效率和企業范圍的應用。數據處理在實現工業化人工智能的道路上扮演著核心角色,將占整個 AI 用例實現的60% 到80% 。
各種獨立的AI 用例導致了全球分布式的、多語言和異構的企業數據環境。用于人工智能用例的結構化和非結構化源數據被提取并存儲在被稱為數據湖的原始數據存儲庫中。它們基于單獨的數據存儲技術,例如不同的 NoSQL 系統、特定用例的數據模型和專門的源數據攝取。這些數據庫與企業數據倉庫共存,其中包含來自各種系統用于用于報表的聚合數據。現有的許多數據交換過程造成各種數據冗余和潛在的數據質量問題。此外,不同的數據環境使得業務對象(例如產品和流程)的集成和開發變得越發復雜,從而阻礙了跨流程和跨產品 AI 用例的開發。
例如,為了預測工廠中某一特定制造過程的質量,一個由數據科學家和數據工程師組成的專業項目團隊首先確定相關的源系統,尤其是工廠中的幾個本地 MES以及一個ERP 系統。MES提供關于質量測量的傳感器數據,ERP 系統提供主數據。與各種 IT 專家、制造專家和數據所有者一起,團隊檢查源系統的數據結構,并開發定制的連接器,用于提取源數據并以原始格式將其存儲在本地工廠的數據湖中。
數據是基于特定用例的數據模型和數據管道進行清理、集成和轉移。然后,團隊使用各種機器學習工具來生成最優預測模型。在多次迭代過程中,調整數據模型和源數據以增強機器學習的數據基礎。最終的預測模型通過調用機器學習評分服務在工廠車間的 MES 中使用。
最終的解決方案構成了一個有針對性的孤立人工智能服務,具有定制的數據攝取、數據模型、數據管道、專門的工廠數據庫和適合用途的機器學習工具。該解決方案綜合了大量的專家知識,包括制造過程知識、 ERP 和 MES IT 系統知識、用例特定的數據工程和數據科學知識。然而,缺少數據管理準則(如數據建模和元數據管理準則),源系統透明度的匱乏,各種孤立的數據湖,都阻礙了人工智能的重用、效率和企業范圍的應用。也就是說,同一類型的用例在不同的工廠中以不同的方式從零開始實現。因此,相同的源數據(例如主數據)被多次提取,給關鍵業務的源數據系統(例如 ERP)帶來了高負載。為相同的概念數據實體開發了不同的數據模型,如“機器”和“產品”。這些異構數據模型和各個工廠數據庫中使用的不同數據存儲技術導致了異構數據管道圍繞同一類型的源數據進行旋轉。此外,數據和已開發的數據模型(即元數據)的商業意義在數據字典或電子表格等特定項目工具中被多次記錄。總而言之,這導致了人工智能孤島和異構的企業數據現狀。
因此,要實現人工智能的工業化,需要對潛在的數據挑戰進行系統的分析。
2、人工智能的數據挑戰
一般來說,確保人工智能的數據質量非常重要,除了數據質量之外,還很多關鍵的數據挑戰:數據管理、數據共享和 AI 的數據治理。
這里,機器學習和數據挖掘提出了更廣泛的數據要求。它們不僅使用聚合的、結構化的數據,而且在其原始格式中使用了大量的非結構化數據,例如,用于基于機器學習的光學檢查數據。
2.1 AI數據管理的挑戰
數據管理一般包括在整個生命周期中處理、提供和控制數據。人工智能的數據管理挑戰在于在異構和多語言的企業數據環境中全面管理用于人工智能的數據,特別是數據建模,元數據管理,和數據架構。
對于如何在概念和邏輯層次上跨系統對數據進行結構化和建模,目前還沒有通用的數據建模方法。在數據庫中,對于相同類型的數據(如傳感器數據) ,常常使用不同的數據建模技術,如數據倉庫或維度建模技術。有時候,由于采用了在原始數據之上的靈活讀取方法,甚至忽略了數據建模的需要。這使得數據集成、數據重用以及跨不同 AI 用例開發數據管道變得非常復雜。例如,傳感器數據作為機器學習的輸入是非常耗時和復雜的。為不同AI 用例重用相應的數據管道在很大程度上依賴于通用數據建模技術和通用數據模型。
沒有總體的元數據管理來維護跨數據領域的元數據。元數據,例如列和屬性的名稱,大多存儲在各個存儲系統的內部數據字典中,通常不可訪問。因此,數據的繼承和影響分析都受到阻礙。例如,在源系統發生變化的情況下,在沒有適當的元數據情況下,手動調整所有數據湖中受影響的數據管道是冗長而昂貴的。此外,關于數據含義的業務元數據往往根本沒有得到系統的管理。因此,缺少元數據管理顯著地妨礙了人工智能的數據使用。
沒有統一的數據體系結構來構建數據系統。一方面缺少企業數據體系結構來編排各種孤立的數據湖。例如,在很多數據湖中都沒有通用的區域模型,這使數據集成和交換復雜化。此外,包含有價值的 AI 用例關鍵性能指標也還不清楚。另一方面,也缺乏一個系統的平臺數據體系結構來設計一個數據庫。具體來說,就是利用不同的數據存儲技術來實現數據湖。例如,一些數據庫完全基于 Hadoop 存儲技術,如 HDFS和 Hive,而其他數據庫則結合了經典的關系數據庫/值系統和 NoSQL 系統。這導致整個企業數據環境中的數據湖架構不統一,從而導致高昂的開發和維護成本。
2.2 人工智能的數據共享挑戰
一般來說,數據共享是指促進組織中的每個人使用數據。人工智能的數據共享挑戰在于為整個企業的各種終端用戶提供各種各樣的人工智能數據。為此,數據供給和數據工程以及數據發現和探索都是人工智能的核心任務。
數據供給,即從技術上將新的源系統連接到一個數據湖,并提取選定的源數據。IT專家關心的是為源系統定義技術接口和訪問權限,并與源系統所有者和數據的最終用戶合作開發數據提取作業。因此, IT 部門經常成為數據供應的瓶頸因素。IT 專家、源系統所有者和終端用戶之間存在巨大的協調需求,這導致了耗時的迭代。這些因素極大地減緩和限制了數據供給,從而限制了人工智能對新數據源的使用。
數據工程,即數據的建模、集成和清理,通常由數據科學家和數據工程師完成。由于源系統的元數據不完整,數據工程需要具備單個源系統及其數據結構的專門知識,例如關于 ERP 系統中的數據結構。此外,大多數復雜的、基于腳本的框架(如 Python )用于數據工程的編程任務。這些因素將數據工程限制在少數的專家團隊。
數據的發現和探索也同樣如此。雖然提供了自助的可視化工具,但數據湖中數據的發現和探索受到了阻礙。缺乏關于業務含義和數據質量的全面元數據,使非專家用戶無法輕松使用數據。例如,市場營銷專家必須聯系幾個不同的數據工程師,才能準備不同類型的市場數據,并理解數據的含義和相互關系。此外,數據使用的合規審批一般是基于專家對數據的檢查。這些自動化程度低的過程也減緩了人工智能對數據的使用。
2.3 人工智能的數據治理挑戰
一般來說,數據治理是關于創建組織結構的, 并將數據視為企業資產。目前,數據的組織結構在工業企業中只是初步實現,主要集中在主數據和個人數據上。特別是,數據所有權和數據管理的結構缺失,阻礙了 AI 的應用。
在異構的數據環境中,沒有統一的數據所有權組織。特別的,對于提取和存儲在不同數據庫中的數據,沒有以通用的方式定義其數據所有權。例如,在許多情況下,數據湖中數據的所有者與源系統的數據所有者保持相同。也就是說,來自不同源系統的數據的集成需要不同數據所有者的審批。因此,數據不被視為公司擁有的企業資產,而是作為某一業務功能的資產,例如,財務部門是財務數據的數據擁有者。這導致在使用人工智能數據時,責任不明確,風險和收益的分配不平衡,這些組織邊界顯著地阻礙了人工智能對數據的全面使用。
沒有一個全面的數據管理組織來建立通用的數據策略、標準和過程。工業企業現有的數據監管結構主要側重于定義各種主數據,例如客戶主數據的通用數據質量標準,其他類別數據的數據管理工作并沒有被系統地組織。例如,在不同的工廠和制造過程的制造數據中,有各種各樣的數據模型和數據質量標準。因此,缺乏制造數據的通用企業范圍策略,這顯著增加了 AI 數據工程的工作量和復雜性。
3、工業企業的數據生態系統
一般來說,數據生態系統是一個社會技術、自組織、松耦合的系統,用于數據共享。數據生態系統的典型要素是數據生產者、數據消費者和數據平臺。然而,數據生態系統的研究仍處于早期階段,主要集中在共享開放的政府數據。因此,需要建立一個專門針對工業企業的數據生態系統。
3.1 數據生產者和數據消費者
一般將工業企業中的四種數據生產者區分開來: 過程是指整個價值鏈中的各種工業過程和資源,例如工程過程。人包括各種各樣的人,包括顧客和雇員。第三方包括企業組織范圍之外的行為者和資源,例如供應商。
3.2 數據源
數據源涉及技術類別和數據生成的來源。工業企業中主要有四種數據源: 企業數據是指企業 IT 系統在整個工業價值鏈中生成的所有數據,例如 PLM 和 ERP 系統。用戶生成的數據是指人類行為者直接生成的數據,例如社交媒體上的帖子或文檔。物聯網數據是指由物聯網設備產生的所有數據,例如制造業機器數據或傳感器數據。網絡數據是指除用戶生成的數據以外的所有網絡數據,例如鏈接開放數據或支付數據。
3.3 數據平臺
數據平臺是各種數據源數據處理的技術基礎,使數據可用于各種數據應用程序。數據生態系統基于三種數據平臺: 企業數據湖、邊緣數據湖和企業數據市場。
企業數據湖構成了一個邏輯上集中的、企業范圍的數據湖。它將原始數據庫方法與數據倉庫概念相結合,即將各種原始數據的數據湖式存儲和處理與聚合數據的數據倉庫式分析相結合。支持批處理和流處理,可以對各種數據進行各種分析。企業數據湖是基于數據建模和元數據管理的全面指導方針,并支持在企業范圍內重用數據和數據管道。
邊緣數據湖表示對企業數據湖進行補充的分散原始數據存儲。邊緣數據庫側重于實現基于本地數據的數據應用程序,很少有企業范圍內的重用。它們特別適合分布式工廠的數據處理,有些工廠自己運行邊緣數據庫。邊緣數據湖的典型 AI 用例是預測由企業單個工廠中的特定制造機器生成的時間序列數據。
企業數據市場構成了數據生態系統的中心支點。它表示一個基于元數據的自助服務平臺,用于連接數據生產者和數據消費者。目標是匹配企業內部的數據供需。然而,關于數據市場的研究還處于早期階段,目前還只是關注于外部企業數據市場的初步概念。
與企業數據湖和邊緣數據湖相比,企業數據市場不存儲實際數據,它基于一個數據目錄,表示一個基于元數據的數據庫。也就是說,數據由元數據和對實際數據的引用表示。例如,“ 產品的質量數據”可能包含該產品的元數據和存儲在企業數據湖中的一組傳感器數據。數據目錄不僅指數據湖中的數據,還指源系統中的數據,如 ERP 和 PLM 系統。此外,來自公開API的元數據也在數據目錄中進行了融合。因此,市場和數據目錄一起提供了企業中所有數據的基于元數據的概述。
關于市場提供的服務,以自服務的方式處理數據消費和數據生產。數據使用者的服務包括數據發現和數據準備等內容。例如,數據生產者的服務包括自服務的數據管理,以定義數據集上的元數據,以及基于 API的數據發布。整個市場服務涉及整個數據生命周期: 數據采集和編排,發布和跟蹤,以及數據的準備和探索。
3.4數據應用
數據應用是指使用數據平臺提供數據的各種應用程序,可以分為描述性、診斷性、預測性和規定性的數據應用。也就是說,數據應用包含了從報表到機器學習的數據分析整個范圍。數據應用為已定義的數據消費者實現了已定義的用例,如制造業中的過程性能預測。
3.5 數據角色
數據角色包括與數據相關的組織角色。這些角色跨越了數據生態系統的所有層。工業企業中對人工智能和數據分析至關重要的關鍵角色包括數據擁有者、數據管理員、數據工程師和數據科學家。
數據所有者對某些類型的數據負有全面責任,例如,某一產品的所有數據,被分配到業務部門,而不是 IT 部門,并且從業務角度負責這些數據的質量、安全性和遵從性。在企業數據湖和邊緣數據湖中定義統一和透明的數據所有權,并將這些結構與源系統中的數據所有權分離。例如,存儲在企業數據庫中特定產品的所有數據都應該由各自的業務單元擁有,以便于跨流程使用數據。
為了減少人工智能數據工程的復雜性和工作量,需要一個全面的數據管理組織,為各種數據建立通用的質量標準和參考數據模型。例如,可以根據 IEC 62264參考模型對制造數據進行結構化,以簡化企業不同工廠之間的數據集成。一般來說,數據工程師開發數據管道,通過整合和清理數據,為進一步分析提供數據基礎。在此基礎上,數據科學家將重點放在特征工程的實際數據分析上,并應用各種數據分析技術(例如,不同的機器學習算法)從數據中獲取洞察力。
4、從狹窄領域到企業級的AI應用: 應對挑戰與未來方向
數據生態系統通過解決數據挑戰為工業化的人工智能鋪平了道路,數據生態系統中所面臨的開放性問題指出了未來的研究方向。
4.1 應對數據管理的挑戰
關于數據管理的挑戰,數據生態系統是基于一組綜合的數據平臺,即企業數據湖、邊緣數據湖和企業數據市場。這些平臺為 AI 和數據分析定義了企業數據的體系結構。為此,企業數據湖合并了企業數據倉庫,避免了兩個獨立的企業數據平臺和相應的數據冗余。它基于一套統一的數據建模準則和參考數據模型,以解決數據建模方面的問題。例如,來自 ERP 系統的企業數據是使用數據庫來建模的,以便能夠與物聯網設備的傳感器數據進行快速集成。此外,邊緣數據庫僅提供了最小限度的指導方針,為用例探索和原型開發提供了靈活性,但它們僅限于本地數據,特別是在單個工廠中。
企業數據庫平臺的數據架構設計本身具有挑戰性,因為它必須服務于各種各樣的數據應用,從描述性報告到預測性和規范性的機器學習應用。特別是,定義一個合適的數據存儲和處理技術是一個開發的問題。企業數據庫傾向于采用多語言的方法,為不同的數據應用提供適用的技術。為此,遵循 lambda 架構范式,將關系數據庫系統、 NoSQL 系統和實時事件結合起來。在這個多語言平臺上,為不同類型的數據應用確定了合適的架構模式,是人工智能用例標準化實現的一個有價值方向。此外,組織企業數據湖中的所有數據需要一個超越數據建模的總體結構。
作為企業數據市場的一部分,數據目錄解決了元數據管理方面的問題。數據目錄的重點是獲取、存儲和提供所有數據湖和源系統的各種元數據(技術、業務和操作元數據)。通過這種方式,它可以使數據分析和質量評估成為人工智能用例的重要組成部分,例如,評估企業數據庫中數據集的來源。數據目錄代表了一種相對較新的數據管理工具,主要關注于批量存儲系統中元數據的管理。
4.2 應對數據共享的挑戰
數據共享挑戰中的數據提供、數據工程、數據發現和探索,都涉及到自助服務和元數據管理,要由基于數據目錄的企業數據市場來解決。數據目錄為數據生態系統提供了全面的元數據管理,極大地促進了數據工程以及各種終端用戶的數據發現和探索。企業數據市場還為各種數據生產者和消費者提供跨越了的整個數據生命周期的自助服務。例如,制造業的工程師通過在數據市場中獲得自服務工作流來提供企業數據庫中新機器的傳感器數據。
對于內部的企業數據市場來說,既不存在現成的工具,也不存在健全的概念,需要作為一個單獨的軟件來實現。為此,有多種實現選擇,例如,使用語義技術對元數據和服務進行建模。
4.3 應對數據治理挑戰
面對數據治理的挑戰,數據生態系統定義了一系列與數據相關的關鍵角色,即數據擁有者、數據管理者、數據工程師和數據科學家。因此,數據所有權和數據管理這兩個方面問題都得到了解決。跨系統的數據所有權組織有助于為 AI 用例提供符合要求的源數據,數據使用的審批和責任已經明確界定。此外,通過建立參考數據模型和數據質量標準,對各種數據的管理組織可以顯著提高數據質量,并減少數據工程工作。在這種情況下,數據目錄通過為數據所有者和數據管理員提供關鍵指標來支持數據治理。
一個主要的問題是這些角色在現有組織結構中如何實現。一般來說,各種各樣的數據治理框架和成熟度模型只提供關于如何處理數據治理的高級指導,例如哪些主題需要處理,以及定義什么角色。考慮到行業和企業文化等因素,缺乏關于如何實施數據治理的具體指導方針,例如,決定何時按業務單位或業務流程來組織數據的所有權。
5、小結
數據挑戰是工業企業應用人工智能的主要障礙。人工智能目前是以一種孤立的方式進行,導致了多語言和異構的企業數據情景。這對系統數據管理、數據共享和數據治理提出了相當大的挑戰,并阻止了 AI 在工業企業中的廣泛使用。
為了解決這些問題,將工業企業的數據生態系統作為指導框架和總體架構,所有數據挑戰都將得到解決。數據生態系統的技術性質使各組織能夠處理數據管理和數據治理挑戰的組織方面:確定了數據角色和數據平臺。此外,數據生產者和數消費者的數松散耦合和自組織性質解決了數據共享的挑戰,例如,企業數據市場提供了全面的自助服務和元數據管理。在這一點上,數據生態系統不僅適用于人工智能,也適用于任何類型的數據分析。