數據架構師在人工智能支持中的作用
不可避免的人工智能炒作周期
除非你一直生活在與世隔絕的地方,或者試圖通過電話預約全科醫生,否則你不可能注意到有關人工智能及其各種用途的炒作已經達到了狂熱的程度。
現在,每個有價值的 PowerPoint 演示文稿都至少三次提到DeepSeek,兩次提到“轉型機遇”,以及至少一次關于 Agentic 涅槃的誘人承諾。
不可避免的是,在這種膨脹的期望達到頂峰之后,我們會進入沮喪的低谷,然后最終走出困境,雖然傷痕累累,但更加睿智,邁入生產力的高地。只有到那時,我們才能真正完成一些工作,而不是僅僅談論人工智能將如何從根本上改變現代生活的方方面面,同時導致我們大多數人失業。
當我們在這個危險的環境中航行,試圖從虛構中篩選事實時,值得研究數據架構師在為成功的人工智能計劃奠定基礎方面所發揮的關鍵但經常被忽視的作用。
數據架構師的多面性
在談論人工智能時,數據架構師可能會被遺忘的一個原因可能是,這個術語本身含義過于豐富,對不同的人來說意味著不同的東西,就像“餅干”描述了一種完全不同的烹飪體驗,這取決于你站在大西洋的哪一邊。
對招聘信息進行快速調查,就會發現一堆名副其實的頭銜,每個頭銜都描述了“數據架構師”的角色,但期望和職責卻大相徑庭:
企業數據架構師:睿智的圣人,高高在上,俯瞰整個數據格局,確保業務目標與數據戰略保持一致。您可以稱其為數據圣殿的祭司。
然后是數據解決方案架構師:這些工程師較少關注哲學數據思考,而更關心實際構建事物,他們經常在昨天就需要它的利益相關者不耐煩的注視下設計和實施數據解決方案。
數據建模師:這位有強迫癥的表親,會花費數小時來確保每個關系都正確定義為聚合、組合或關聯。在規則和界限清晰的環境中才能蓬勃發展。
AI架構師:傳統數據世界與數據科學和人工智能這個嶄新領域的橋梁。他通曉兩種語言,但兩大陣營的純粹主義者對他略感懷疑。
云數據架構師:從未遇到過無法遷移到云端的內部解決方案的現代化者,最好是將停機時間降至最低,并最大限度地減少安全團隊的擔憂。
數據產品架構師:數據架構師領域中相對較新的成員,他們將生活視為由精心打造的產品組成的互聯網絡,每個產品都完美地契合解決一個用例。如果不是分布式或聯合式的,他們就不會感興趣。
所有這些角色的共同點在于,他們負責設計和維護構建有效數據系統乃至人工智能系統所需的框架。從制定數據戰略到實施治理框架,從創建數據模型到促進知識圖譜開發,這些專業人士是幕后默默工作的英雄,確保 Agentic 咖啡機不會將您的抹茶拿鐵和摩卡星冰樂混在一起。
DIKW 金字塔和 AI 需求層次:理解數據架構師角色的框架
在我們討論數據架構師如何支持人工智能之前,有必要建立一個概念框架,以幫助定位他們的角色以及我們需要牢記的更廣泛的考慮因素,以確保人工智能取得成功。
兩個互補的模型在這里被證明特別有用:經典的 DIKW(數據-信息-知識-智慧)金字塔和最新的 AI 需求層次模型。
自 20 世紀 80 年代以來,DIKW 金字塔一直是信息科學的主要內容,它描述了:
數據由原始的、未經處理的事實和數字組成。
當數據被組織起來并賦予背景時,信息就會出現。
當信息被解釋、綜合和應用時,知識就會出現。
智慧源于知識、經驗和判斷的全面運用。
同時,人工智能需求層次理論(對馬斯洛心理層次理論的巧妙改編,該版本受到Shopify 的啟發)概述了成功實施人工智能的基本要求。
傳統的 AI 需求層次結構傾向于強調工具和技術,將 AI 和深度學習置于頂峰,而 Shopify 的數據科學需求層次結構則采取了更注重影響的方法,與數據架構師的實際角色更加契合:
- 收集和建模:通過數據采集、平臺開發、管道構建、數據建模和清理創建基礎。
- 描述數據:通過報告、儀表板、指標、細分和探索性分析使用數據獲得基本了解。
- 預測/推斷:應用統計、因果推理和機器學習等更先進的技術來解決更深層次的問題。
- 規范行動:根據分析和實驗,利用洞察力推薦具體行動。
- 影響力:無論技術復雜程度如何,通過一切必要手段對業務產生實際影響
這種方法的特別之處在于它將影響力而不是技術放在首位。
數據架構師主要在這個層級的較低層級工作,奠定一切的基礎。數據科學家和機器學習工程師可能專注于預測和給出方案,而數據架構師則首先確保可靠、高質量的數據可用。
這就是為什么數據架構師的角色如此關鍵。為了攀升至這些層級結構的頂端,創造影響力并制定解決方案,組織往往在數據收集和建模等基礎層面投入不足。這就像在沒有首先確保地基牢固和結構完整的情況下試圖建造一座宮殿。最終建成的宮殿在建筑效果圖中可能看起來令人印象深刻,但最終建成后必然會倒塌。
Shopify 的做法提醒我們,最先進的技術并非總能產生影響。有時,一個簡單、結構良好且文檔清晰的數據集,比建立在不穩固數據基礎上的最復雜的神經網絡更有影響力。
數據架構師賦能 AI 的 10 種方法
1. 基線評估和人工智能準備情況評估
在深入研究最新的人工智能趨勢之前,數據架構師應該確保組織了解其現狀。這意味著要對數據成熟度和人工智能就緒程度進行絕對誠實的評估。
與其費力地推進,不如先確定哪些業務部門或職能部門已經擁有相對成熟的數據實踐。繪制他們現有的數據集,評估其質量,并確定他們是否具備人工智能所需的基礎要素:充足的相關數據、基本的治理結構以及清晰的用例。
同時,與業務利益相關者溝通,找出可以從AI解決方案中獲益的緊迫挑戰。目標并非是制作一份300頁的報告,讓它在某個被遺忘的SharePoint文件夾中積滿數字灰塵,而是要快速識別唾手可得的成果,以及AI可以利用現有數據資產提供切實價值的問題。
2. 業務背景和流程轉型構思
一旦確定了潛在用例,數據架構師必須暫時專注于理解所涉及的業務領域和流程。遺憾的是,許多一頭扎進技術解決方案的 AI 項目忽視了這項任務。這個過程應該與業務和領域專家一起進行,包括組織中作為更廣泛的 EA 能力一部分的任何業務架構師。
它涉及:
- 領域知識獲取:深入研究特定業務領域,無論是抵押貸款承銷、供應鏈優化還是客戶服務運營。這意味著要擺脫技術術語的束縛,學習使用業務用戶的語言,無論這有多么艱難。將語義記錄在領域級詞匯表和詞典中,并使用這些語義創建概念和邏輯模型,這些模型的覆蓋范圍足以指導后續的用例解決方案設計。
- 業務流程考古:挖掘現有業務流程,通常能發現經過多年臨時調整和變通而演變的古老工作流程。記錄現有狀態,無需評判(目前)。
- 目標狀態研討會促進:舉辦設計思維會議,將主題專家、最終用戶和技術人員聚集在一起,共同設想轉型流程。如果通過人工智能文檔分析,抵押貸款審批流程從30天縮短到3分鐘,會是什么樣子?自動化和人工監督之間該如何平衡?
- 解決方案共同創造:采用產品管理思維,設計平衡技術可能性與實際需求的解決方案。這包括在編寫任何代碼之前,創建模型、用戶旅程地圖和原型來測試假設。
最終成果應該是清晰的愿景,闡明如何轉型業務流程,明確人工智能將為哪些具體接觸點增值,以及支持人工智能所需的數據和信息流。它不應該是一個模糊的承諾,比如“利用人工智能讓事情變得更好”,讓每個人都摸不著頭腦,難以理解其真正含義。
3. AI解決方案適用性分析
盡管眾多供應商上門拜訪可能會暗示你,但并非所有問題都需要大型語言模型學位。因此,我們需要確定哪種分析方法最適合當前問題。
至關重要的是,這項分析必須與數據科學和人工智能團隊密切合作進行,并且可能與上一步的解決方案共同創建階段有所重疊。數據架構師擁有數據結構、質量要求和企業集成方面的專業知識;數據科學家則擁有算法、模型特性和分析方法方面的專業知識。任何團隊都無法獨自做出最佳決策。
共同創建一個簡單的決策框架,幫助利益相關者了解何時使用:
- 傳統分析和 BI(仍然足以解決許多問題)
- 經典機器學習模型(用于結構化數據預測)
- 計算機視覺系統(用于圖像和視頻分析)
- 自然語言處理(針對文本和語音)
- 生成式人工智能和大型語言模型(用于內容生成和復雜推理)
記住,最簡單的解決方案往往是最好的。如果一個問題可以通過精心設計的 SQL 查詢來解決,就沒有必要部署一個需要小型發電站才能運行的基于 Transformer 的神經網絡。
正如 Shopify 的層次結構提醒我們的那樣,影響力比技術復雜性更重要。
4. 數據治理、上下文映射和合規架構
不同的人工智能系統有不同的治理要求。依賴結構化數據的傳統機器學習模型對數據質量問題更為敏感,而大型語言模型 (LLM) 則需要圍繞知識管理和業務上下文元數據進行治理。
數據架構師必須確保治理框架能夠涵蓋這些特定于 AI 的問題,同時滿足監管要求。然而,與我們的“歌劇蛋糕”方法一致,我們應專注于為每個垂直切片創建恰到好處的治理,而不是試圖從一開始就構建一個全面的企業數據治理框架。
通過考慮以下因素,將數據映射到治理影響中:
對于使用結構化數據的 ML 模型:
- 如何衡量和維護數據質量?
- 需要進行哪些清潔或預處理?
對于大型語言模型 (LLM) 和生成式人工智能:
- 您將如何通過元數據提供業務背景?
- 哪些知識管理系統將確保模型能夠訪問準確、最新的領域知識?
- 是否存在本體或知識圖譜開發等信息架構要求來提供語義理解?
- 數據隱私對模型訓練和部署有何影響?
- 這個特定用例需要什么級別的透明度和可解釋性?
- 高風險應用程序是否有審計和沿襲要求?
- 應該實施哪些偏見檢測和緩解策略?
建立適度治理,確保適當的環境、理解和合規性,同時又不扼殺創新。對于每個人工智能項目,創建一個最小可行的治理框架,該框架可以隨著解決方案的成熟而擴展,而不是從一開始就堅持全面治理。
5.數據技術架構
人工智能模型需要數據,通常需要大量數據,而確保在正確的時間提供正確的數據是一個關鍵的架構問題。
評估:
- 需要哪些數據源?如何整合它們?我們需要移動數據嗎?還是可以通過 API 或數據虛擬化提供訪問?
- 如果您在數據網格/數據產品環境中工作,是否有現有的數據產品可供我們獲取信息,還是需要構建新的(聚合)數據產品?我們能否將此用例的輸出作為另一個支持多種用例的產品來交付?
- 源數據變化的速度有多快?模型對這些變化的敏感度有多高?
- 對于不同類型的決策來說,什么樣的數據延遲是可以接受的?
- 需要什么級別的數據質量?如何維護?
- 為了培訓目的,如何管理歷史數據?
如果每日或每周更新就足夠,則應避免過度設計數據管道以提供實時數據。相反,應確保時間敏感型應用程序擁有低延遲數據訪問所需的基礎設施。目標是創建一個符合用途的技術架構,而不是不必要地復雜或昂貴。
6. AI技術架構
模型訓練和部署的技術基礎設施常常被低估,直至其成為關鍵的瓶頸。數據架構師應積極與AI和ML工程師合作,設計并支持可持續的AI技術架構,以支持初始模型開發和持續運營。
它應該解決以下問題:
- 模型需要多久重新訓練一次?
- 涉及哪些數據量?如何存儲和訪問訓練數據?
- 特征工程如何實現標準化和版本控制?
- 需要哪些計算資源?這些資源是內部可用還是通過云提供商提供?
- 推理是離線(批處理)還是在線(實時)進行?
- 模型響應的延遲要求是什么?
- 在高峰使用期間系統如何擴展?
- 如果模型失敗或降級,存在哪些后備機制?
創建可重復使用的模式,并融入模型版本控制、實驗跟蹤和部署自動化方面的最佳實踐。通過盡早建立這些模式,您可以為隨著 AI 在組織范圍內的普及而實現高效擴展奠定基礎。
7.安全和訪問控制設計
人工智能系統經常處理敏感數據,并可能以意想不到的方式泄露信息。這是貫穿解決方案設計各個環節的關鍵問題。數據架構師必須與首席信息安全官 (CISO) 或同等級別的團隊合作,確保在各個層面實施適當的安全控制。
考慮:
- 基于角色的模型訓練、部署和使用訪問控制
- 靜態數據和傳輸中數據的加密
- 在適當的情況下,采用差異隱私或聯邦學習等隱私保護技術
- 通過模型輸出監控潛在的數據泄漏
- 用于 API 訪問模型的身份驗證和授權框架
將安全性設計為架構的有機組成部分,而不是在發布前一周,當首席信息安全官 (CISO) 開始提出令人頭疼的問題時,才將其作為事后補充。安全設計不僅確保人工智能系統在準確性方面值得信賴,還能確保其在敏感信息處理方面值得信賴。
8. 模型監控和漂移檢測
隨著周圍環境的變化,模型會逐漸退化,這種現象被稱為模型漂移。這種監控功能可以確保持續的質量,并維護解決方案成功所需的可信度。數據架構師應該與 AI 團隊合作,設計和支持用于檢測和預警各種漂移的監控系統。
需要考慮的事項包括:
- 數據漂移(輸入數據分布的變化)
- 概念漂移(輸入和輸出之間關系的變化)
- 性能漂移(模型準確率或其他指標下降)
- 操作問題(延遲峰值、資源利用率等)
設計架構不僅要能夠檢測這些問題,還要能夠促進補救,例如在性能下降時自動觸發重新訓練或回退到更簡單的模型。一個受到良好監控的系統可以隨著時間的推移保持其價值,即使周圍環境發生變化。
與以前一樣,創建可重復使用的模式,其中包含最佳實踐,可供以后的其他項目利用。
9. 消耗和反饋回路設計
AI并非孤立存在;它必須與現有系統和工作流程相集成,將洞察轉化為行動。數據架構師應確保解決方案設計不僅適合模型開發,還適用于AI輸出的消費以及至關重要的反饋回路。
考慮:
- 誰或什么會使用模型輸出?人類會通過儀表盤或報告使用嗎?其他系統會通過 API 使用嗎?自主代理會通過 MCP 服務器使用嗎?
- 是否可以根據模型輸出自動做出決策,還是我們需要人工參與來做出或驗證決策?
- 用戶或系統將如何對模型準確性和性能提供反饋?
- 哪些指標將決定模型的成功?以及如何跟蹤這些指標?
- 系統將如何捕獲并整合這些反饋以改進未來的迭代?
設計完整的反饋生態系統,既要考慮業務影響,也要考慮模型改進。這可能包括開發輕量級的注釋工具,供用戶校正模型輸出,或實施 A/B 測試框架來比較不同的模型版本。請記住,有效的反饋循環可以將一次性的分析工作轉化為可持續的系統,從而持續提供價值。
10.結果測量和價值跟蹤
人工智能項目最終應該實現商業價值,而不僅僅是技術成果。數據架構師必須設計能夠有效追蹤和傳達這一價值的系統。
建立:
- 明確與每個人工智能計劃相關的業務指標,以及這些指標反過來如何影響更廣泛的企業指標。
- 衡量人工智能帶來的改進的機制。
- 儀表板或報告以商業術語而非技術術語來傳達價值。
- 審查結果并相應調整策略的過程。
從第一天起就將衡量指標融入架構,而不是事后匆忙量化價值。這可能包括 A/B 測試框架、價值歸因模型,或與現有業務績效跟蹤系統的集成。通過將 AI 計劃與業務成果明確關聯,您可以創建一個良性循環,讓成功催生進一步的投資和應用。
最后:務實的前進之路
人工智能賦能之旅并非一次宏大的轉型,而是一系列切實可行的漸進式步驟,這些步驟以清晰的愿景為指導,并基于商業現實。DIKW金字塔和人工智能需求層次結構為理解這一旅程提供了寶貴的框架,并強調了在實現更復雜的人工智能功能之前必須完成的關鍵基礎工作。
數據架構師在這一旅程中扮演著至關重要的角色,他們并非承諾打造能夠帶來無限投資回報的AI獨角獸,而是系統地構建基礎,使有意義的AI應用成為可能,并作為團隊的一員,為Opera提供完整的垂直細分市場。通過這種方式,我們可以確保AI項目快速實現價值,同時逐步構建更全面的功能。
在這個領域,最成功的數據架構師能夠彌合炒作與現實、技術可能性與業務需求之間的差距。他們不會專注于繁瑣的計算,而是專注于識別人工智能能夠帶來切實價值的具體問題,然后系統地解決架構需求,使這些解決方案具有可持續性。
在我們探索人工智能炒作周期的過程中,采用這種務實方法的數據架構師將創造真正的價值,而其他人則會對理論可能性贊不絕口。當我們最終達到生產力的頂峰時,他們將擁有可運行的系統,而不是 PowerPoint 幻燈片。
畢竟,沒有哪位技術顧問真正說過這樣的話:
簡單有效的解決方案比無效的絕妙解決方案要好。