如何構建物聯網數據精煉廠
物聯網數據的精煉應用是跨越數字化轉型鴻溝的基礎
隨著公司根據從物聯網設備獲得的數據實施更多的用例,甚至完成業務模式轉型,需要一種對這些數據進行數據質量管理的結構化方法變得至關重要。太多的公司試圖在質量低劣的數據基礎上擴大數字化轉型,這會導致很多挫敗感,并且幾乎沒有實際的商業利益。
我有時會用著名的“跨越鴻溝”圖進行類比。事實上,初創公司從早期創新者轉向被大多數市場采用所面臨的挑戰有相似之處。當應用于數字化轉型時,挑戰在于跨越從成功的數字化試點項目到全面實施的鴻溝。
許多公司無法在試點階段之后擴大數字化轉型計劃。
行業公司最近的研究證實,數據質量是擴展工業分析的主要障礙之一。換句話說,眾所周知的“垃圾進——垃圾出”的口號仍然很盛行。
了解數據質量
現在,盡管數據質量對我們大多數人來說具有直觀的意義,但實際上它是一個具有多種可能定義的彈性概念。這些范圍可以更窄,例如:
當數據正確地代表了它想要描述的潛在現實世界現象時,數據就具有良好的質量。
根據這個定義,數據需要有效、準確、一致和完整等。數據質量的另一個常見且同樣有用的定義如下:
當數據適合目的時,數據的質量就很好。
在第二個定義中,數據結構化、可解釋性和情境化的方面也被納入考慮范圍,只要這些方面與預期用例相關。
物聯網數據精煉廠
就像煉油廠中原油的情況一樣,質量可能較差的原始數據可以得到提煉。可以將其視為通過一系列“質量門”的數據,如下所示:
- 門 1:可訪問
數據在可供使用時到達此門。此步驟需要成功連接到數據源并能夠查詢/讀取樣本。
- 門 2:結構化和情境化
通過此門的數據是結構化和情境化的。對于物聯網數據,此步驟通常意味著已添加設備和資產元數據以及其他關鍵上下文。
- 門 3:已驗證
下一步是數據的質量驗證。此時,數據質量是根據許多關鍵維度進行評估的,包括準確性、一致性和及時性。
- 門 4:清理
評估數據質量通常是不夠的。許多數據產品需要數據清理作為管道的一部分來創建可供使用的數據。
- 門 5:帶注釋
除了清理和結構化之外,可能還需要由主題專家 (SME) 或數據管理員提供的附加標簽,以使數據適合使用。例如,可以標記資產關閉的時間段或在檢查問題后添加根本原因信息。
- 門 6:驗證
對于關鍵數據(例如關鍵報告或計費中使用的數據),讓數據管理員明確驗證數據并承諾適合使用的事實通常是一種很好的做法。
- 門 7:共享
此時,數據已準備好共享。共享可以發生在內部或外部、與供應商或客戶。
- 門 8:可視化
數據可視化和探索是下一步。分析師可以在 PowerBI 或類似的描述性分析環境中研究數據。
- 門 9:建模
一些數據用于建模。此任務通常由數據科學家執行。
- 門 10:預測
最后,模型可用于對新傳入數據進行預測。
隨著數據通過大門,它變得更加精致、更加值得信賴、更加有價值。我們確實可以將這個逐步過程視為“數據精煉廠”,并與煉油廠或蒸餾過程進行類比。
在真實的煉油廠中,生產各種產品。例如,靠近蒸餾塔底部的地方生產柴油和煤油等成分,用于重型卡車和噴氣式飛機。汽車中使用的汽油混合成分等較輕的成分被提取到蒸餾塔的頂部。
同樣,我們的數據精煉廠可能會產生各種數據產品。并非所有這些產品都同樣精致。重要的是,我們知道每個產品在數據特征和質量方面的期望。沒錯,我們不想不小心把煤油放進我們的跑車里!
數據產品占據中心舞臺
當公司意識到有必要明確定義數據產品作為數據基礎設施和最終用戶應用程序之間的一層時,就會出現宣泄的時刻。
數據產品由K2view定義為 ???????????????? ???????? ???????????? ???????? ?????????? ???????????????????????????????????????????????????????????? ???????????????????????????????????????????????????????????? ??????????????????????????????????????????。這些被稱為“產品”(而不是普通資產),因為它們是為了滿足消費者的需求而設計的。
定義數據產品的好處在于:
- 角色和職責更加明確,并且
- 視圖中的數據生產者和消費者之間存在明確的一致性。
成功實施后,數據產品可以有助于消除數據生產者和消費者之間的摩擦,幫助數據團隊變得積極主動,并實現數字計劃的全面推廣。
在沒有對數據產品進行適當管理的情況下擴展物聯網數據用例時的預防措施。
使用托管數據產品轉向主動方法。
主要角色
現在我已經完成了場景并將數據產品放在舞臺上,讓我們介紹一下構建物聯網數據精煉廠的主要參與者。我并不是想描述最廣泛的數據相關角色集。相反,我想重點關注在實踐中實現物聯網數據質量管理的可行設置的關鍵角色。根據我的經驗,這些包括以下內容:
角色#1:數據平臺工程師
數據平臺工程師對業務起著促進作用。作為數據平臺團隊的成員,他是 IT 組織的成員,負責構建、運營和維護構成數據平臺的支持 IT 服務。
角色#2:數據工程師
數據工程師嵌入數據平臺團隊中,幫助構建和維護自動處理數據的管道。例如,他(她)可以使用編排器將連接到給定端點中的物聯網數據的構建塊組合在一起,將其與元數據源集成,通過添加資產上下文來構建數據,應用邏輯來挖掘特征和評分數據質量,并使生成的豐富數據可供數據管理員使用。
角色#3:數據管理員
數據管理員充當數據產品的數據質量的看門人。管理員是領域/業務專家,而不是決定數據質量何時足夠好的開發人員或基礎設施專家。這意味著他定義數據質量評分并負責數據驗證。即使數據清理可以(很大程度上)自動化,數據管理員明確承諾數據適合使用通常也很重要。
角色#4:數據分析師
數據分析師的角色可能存在于產品團隊內部,但更多時候分析師充當數據產品的消費者/用戶。在此角色中,他們使用商業智能應用程序等工具從數據產品中查詢數據。分析師還經常接受培訓以使用 SQL 直接查詢所服務的數據。
角色#5:機器學習運維工程師
機器學習操作工程師與數據平臺工程師相對應,但對機器學習基礎設施(而不是數據平臺)負有特定責任。請注意,當使用 Databricks 等平臺時,此職責可能與數據平臺工程職責或系統范圍重疊。
角色#6:數據科學家
數據科學角色可能作為數據產品團隊的一部分存在,例如涉及預測的數據產品或挖掘從數據產品本身收集的使用數據。數據科學家也可能在數據產品團隊之外工作,作為數據產品的消費者,使用其數據構建機器學習模型。物聯網中的一個例子可能是一個團隊使用來自公開核心旋轉資產數據的數據產品的數據來構建預測維護模型。
角色#7:機器學習工程師
在較大的團隊中,可能存在特定角色來管理數據科學家創建的機器學習模型。在這種情況下,機器學習工程師負責在整個模型生命周期中管理模型,負責模型部署和模型維護的各個方面。
整合數據精煉廠
我們可以將所有這些放在一起形成一個整體圖,如下所示:
價值鏈
底部 描繪了逐步的數據精煉步驟。隨著數據從左向右移動,它會通過幾個質量關卡,變得更加精致、更值得信賴、更有價值。我想再次強調,并非所有步驟都與每個數據產品中的每個數據點相關。
平臺團隊
在上面一層,描述了平臺團隊。他們運營數據和機器學習操作管道可以運行的平臺和 IT 服務。
數據管道
在中間部分,數據工程師設置自動化數據結構化和上下文化的核心管道。然后,數據管理員獲取自動化部分的輸出,并根據需要進一步清理、注釋和驗證數據。最終的結果是分析師和數據科學消費者/用戶能夠以高質量的數據為基礎,感到高興。
賦能團隊
最后,圖中的頂層添加了治理和支持團隊。這些團隊也是數據產品矩陣結構的重要組成部分。
數據產品在哪里呢
我可以想象,此時您想知道數據產品隱藏在這一切中的哪里。為了澄清這一點,讓我們從一個簡單的數據產品的角度來看同一張圖:
在這個解釋中:
- 數據工程師和數據管理員是數據產品團隊的團隊成員。
- 分析師和數據科學家是數據產品團隊外部的數據產品消費者。
- 數據基礎設施角色是平臺團隊的一部分,促進多種數據產品的發展。
- 同樣,治理和支持團隊也發揮著首要的支持作用。
由于多種原因,實際情況可能比上圖復雜一些:
- 在實踐中,數據精煉過程通常并不完全是線性的。
- 數據產品是依賴/嵌套的。由數據科學家創建并由機器學習工程師操作的模型的預測本身可能會成為數據產品。
- 數據分析師、數據科學家和機器學習工程師也可能是更大、更復雜的數據產品團隊的一部分。當數據產品包含機器學習/建模步驟時,而且當一定級別的數據分析(例如使用統計)成為數據產品團隊的必備條件時,就會發生這種情況。
開始嘗試
感覺有點不知所措,不確定從哪里開始這個過程?積極的一面是,踏上這一旅程比看起來更容易管理。以下是一些入門的提示:
- 不要將數據產品團隊視為需要雇用的一組人員。更有可能的是,這些人已經是組織的一部分,您可以向他們分配特殊的額外職責。對于較小的組織和數據產品,一個人可能承擔多個角色。
- 從小事做起,但從現在開始。一個好的起點通常是 1 或 2 個人明確負責數據產品,并得到 IT 組織和精心選擇的工具集的支持。
- 考慮數據的性質。一些數據質量工具可以幫助您理解和管理特定的數據類型。選擇正確的支持工具通常可以讓技術水平較低的人員更輕松地組合多個角色,例如數據工程師和數據管理員角色。
數據作為戰略資產
人們經常談論數據的戰略重要性。然而,如今,許多以傳感器數據為運營核心的物聯網和制造公司沒有適當的機制來控制數據。IT 部門的治理舉措常常忽視數據產品和數據質量管理對 OT 和物聯網數據的重要性。
如果我們希望數字化轉型計劃能夠規模化,我們需要從談論物聯網數據作為一種戰略資產轉變為真正將其視為一種戰略資產。