AI 驅動的數據分析:Data Agent
原創數據曾被譽為新的石油,但這種說法正在演變。隨著人工智能的興起,算力已經成為企業推動創新和成功的關鍵資源。生成式人工智能所涉及到知識工作和創造性工作的領域 ,如果生成式人工智能可以讓這些人至少提高 10% 的效率和 / 或創造力, 他們不僅變得更快、更有效率,而且比以前更有能力。因此,生成式人工智能具有創造數萬億美元經濟價值的潛力。
顯然,與先前發明的相似之處和潛在影響是確定的。與互聯網和移動電話的進行比較,人們希望通過這種比較來捕捉這種新技術的誘惑力和時刻。
那么人工智能將如何影響 “知識工作” 呢?尤其是數據分析在短時間內經歷了快速增長,引發了人們對數據分析所提供價值的質疑。這導致人們越來越希望有更好的標準和工具來滿足交付價值的需要,采用軟件工程實踐為數據分析帶來了長足的進步。引入人工智能這樣的新變量似乎令人望而生畏,并伴隨著過多的考量。然而,將人工智能整合到一家公司的數據戰略中是至關重要的,忽視它將錯失良機。
1. 關于數據分析
數據分析市場增長迅速,并繼續增長,預計到 20302 年,北美市場的復合年增長率將達到 27.3%。
圖片
在數據科學和數據分析學位出現之前,從其他分析領域過渡到數據分析要容易得多,例如物理,數學,會計,經濟等等。但在過去的幾年里,情況已經發生了根本性的變化。高等教育學位的增長反映了人們對這個領域的興趣,數據科學學士學位增長了數倍。
從廣義上看,數據分析由來已久,例如,會計和財務就是分析性很強的領域,在向公眾報告有關公司財務狀況的指標時有嚴格的定義和規定。現代意義上的數據分析滿足了從有限信息中獲取盡可能多信息的愿望,并提出了一系列挑戰,需要與傳統軟件工程不同的思維方式。雖然軟件工程創建的代碼片段是確定的,并且可能是冪等的,但是數據流水線可以并且確實會隨著數據采集過程的變化而變化。
數據分析需要與軟件工程類似的標準,但需要新的工具。這就是為什么當數據網格出現時,它引起了數據社區的共鳴,讓人想起了軟件工程的敏捷宣言。數據網格解決了分散在整個組織中的不可信和分散的數據這一痛點。聯邦產品所有權的想法也很誘人,由于集中的提取 - 轉換 - 加載 (ETL) 過程已經變得過于繁瑣和遲緩,以至于無法快速滿足組織的分析需求。
這引發了對從 ETL 到 ELT 的轉換,其中數據轉換是最后一步,由數據分析師或分析工程師負責。以獲得授權的數據團隊創建自己的數據模型,而不是依賴數據架構師來構建,這減少了數據消費端等待獲取數據的時間。
圖片
然而,隨著速度的提高,來自多個來源的數據表也隨之增多,需要考慮將數據呈現給最終用戶的 “最終負載”。ETL 流水線通常直接采用可視化工具 (如 Tableau或PowerBI等) 或電子表格,而不是作為建模數據返回到數據庫。
圖片
考慮到向用戶交付最終價值通常需要最后的負載,一個更準確的縮寫詞可能是 ELTL,還需注意的是最后一次加載之前的數據治理步驟。
2. 數據治理、數據建模和語義層
忽略數據治理而直接交付給業務用戶的數據會引起許多問題。在用戶比較儀表盤時,并意識到相似的指標可能產生了不同的結果。錯誤會呈現在最終的產品中,因為測試并沒有得到足夠的重視。這與軟件工程不同,在軟件工程中,測試是質量的保證。隨著數據分析領域的成熟,軟件工程已經經歷的這種坑正在重復。
為了提高準確性,人們嘗試使用數據的語義層。語義層定義了公共度量,以確保整個組織的數據一致性。這是數據分析領域添加更多數據治理的重要改進。此外,還出現了許多強調數據目錄的數據治理解決方案。而今,我們有了更多的工具,強調了與傳統數據分析不同的軟件工程原則。
那么,AI會應用到數據分析領域的哪些方面呢?典型地,AI正被應用于數據分析的最后一個 “加載” 環節,即電子表格、可視化和數據庫中的人工智能。這些數據加載很重要,但是更重要的是在數據倉庫建模上添加 AI。
圖片
如果沒有AI輔助的數據建模和數據治理,整個方案很可能會失敗。
2.1 精確分析
對數據建模的重新強調似乎令數據分析領域形成了閉環。到目前為止,流程中的差異已經允許數據團隊在創建表格方面擁有比以前更多的自主權,將數據傳遞給業務用戶的速度有了明顯的提高,但還是太慢了。數據團隊是一個瓶頸,向儀表盤添加新的過濾器并不總是向最終用戶提供信息的最佳方法。
這實際上在重復過去的錯誤,也就是說,這個錯誤就是大規模的數據生成無需考慮數據治理。這就是為什么最成功的AI數據應用程序將包括數據治理。數據治理不是可選項,而是提供一個可靠的人工智能Data Agent的本質特征。
因此,我們需要添加 AI能力來提高速度,改善對數據建模和數據治理的依賴,提升元數據和文檔實踐。本質上,人們需要需要精確的信息。有些儀表盤存在一個組合問題,太多過濾器和許多不同的選項導致有太多的視圖,以至于很難對其進行排序。AI的能力幾乎可以即時訪問數據并獲得新的見解。這種能夠精確得到人們所需要的東西的能力稱之為 “精確分析”。“有了這么多可能的數據和度量的組合,精確分析允許AI根據用例對數據進行正確的轉換。
2.2 數據對象
單個查詢結果的數據單元可以視為 “數據對象”。使用 AI,用戶可以生成許多不同的、唯一的數據對象,這些數據對象與儀表盤在不同:
- 它們更容易訪問和比較。
- 比較數據對象的能力是內置的。
數據對象也被稱為數據產品和數據模型,我們可以使用數據對象作為任務名稱來描述響應用戶的提示詞查詢。
數據對象目前被定義為以下三種: 度量 (1 行和 1 列)、記錄 (1 行和多列) 和數據集 (多行和多列)。建立數據類型有助于更容易地組織和共享數據,并定義如何組織數據對象。
當前的AI能力和可靠性的改進之間需要達到一個權衡。目前的AI能力很大程度上依賴于一個文檔化的語義層。這個語義層建立在數據庫中關于表的元數據之上。需要對這些表進行建模,并描述它們彼此之間的關系。AI可以幫助發現這些關系,但需要人工確認這些關系。
所有元數據之所以重要是因為AI需要上下文,一般的AI系統通過 RAG 來構建。再將數據發送到正在使用的 AI 模型之前,RAG 允許檢索上下文并將其放入提示詞中。
為了提高這些系統的準確性,需要通過一些檢查機制來構建工作流,例如: 主鍵和連接的檢查。這不僅使 AI 的輸出得到改進,而且令 SQLMesh 這樣的工具更容易地與審計的輸出集成。在 SQLMesh 中,定義行列組合被稱為 “grain”,連接關系被稱為 references。這些原型允許AI系統建立護欄,并提高 RAG 的精度。
3. AI 驅動的數據分析
我們能夠利用AI來解決數據領域的一些基本問題。現在有很多工具可用,要么提供可以與數據集成的解決方案,要么提供可以從頭開始構建的方案。AI驅動的數據分析方案大致分為兩個方向:查詢來自數據庫或文檔等來源的數據和從已經存在的報表中檢索數據。
3.1 從現有數據源檢索數據的 AI
這些工具在分析報告的數據目錄之上構建一個Data Agent。與原始數據源相比,從已經存在的報表中檢索數據的缺陷是報表之間的不一致。我們可以專注于查詢數據并作為一個堅實的起點,然后在此基礎上構建現有報告的檢索。我們也可以只專注于從現有來源檢索,并不試圖以任何方式轉換數據,而是提供已經轉換的信息。因此,提供強大的 AI 數據治理和可解釋性的工具將蓬勃發展。
3.2 從原始數據查詢的AI(如,Text2sql)
Text2SQL 真的可以工作嗎?該技術現在對于企業解決方案來說是可行的,可以交付準確和相關的結果。這方面的一個指標是著名的 Text-to-SQL 基準測試Spider 的進展。Spider 基準測試是 WikiSQL 基準測試的繼承者,解決了它的一些缺點。當前最佳執行模型的準確率是 91.2% 。另外,人工智能基準常常有錯誤,某些性能改進可能意味著對基準的過度擬合。作為參考,MMLU 的錯誤率大約為 9% 。
LLM 的出現使得 Spider 基準測試背后的團隊引入了一個名為 Spider 2.0的新挑戰。這是一個多步驟的工作流,可以用來測試RAG)工作流的性能。這是一個令人興奮的新基準測試,有助于展示這些系統在生產環境中的性能。
另外,Text2SQL 需要有適當的護欄來確保結果足夠準確,以產生切實的影響。
3.3 信任、幻覺和人機交互
在構建一個成功的Text2SQL 系統時,上下文就是一切。一個常見的問題是,這種準確性是否足以讓數據團隊放心,可信度會不會被一個不準確的人工智能系統破壞。重要的是要圍繞 AI 構建的應用程序,我們需要從一開始就考慮對結果的信任。
除了可信度和元數據之外,還需要向數據團隊和業務用戶提供控制能力。無論采用何種的形式,所提供的控制必須使雙方確信他們了解了信息的來源,并且可以自行審計。一些有利于數據團隊的控制方法如下:
- 當AI沒有足夠的信心能夠回答一個問題時,需要通知數據團隊,以便將該問題轉發給他們。
- 能夠審計的 SQL 查詢和AI的思考方式,以獲得其最終答案。
業務用戶也需要通過以下方式實施控制:
- 實時透明地進入AI思維鏈路
- 能夠將源數據表與最終輸出進行比較
- 通過人機交互,給人工智能提供反饋
所有這些組件都只能在Data Agent結構中使用。在 LangChain 的一篇描述認知架構的文章中,描述了根據能力水平對 LLM 系統進行排名。
圖片
未來的Data Agent可能會更善于提出后續問題,在元數據不足的情況下,Data Agent將能夠收集這些信息。感知架構不僅使用Data Agent進行查詢和檢索,還將能夠更新由用戶反饋的元數據。這個新一代的數據分析方案將創建一個飛輪效應,導致文檔的改進和對重要數據指標的更大共識。
最成功的平臺仍將依靠人機交互,以提高AI的輸出效果。聲稱Data agent是自主的,導致了 一些產品的平庸結果,但是依賴于人機交互的方式則產生了巨大收益。重要的是,我們應該現實地看待當前的AI能力,并建立適當的防護措施。
3.4 數據智能 vs 商業智能
AI 驅動的數據應用所需要的范圍比傳統的 BI 工具更大。為了AI 方案的成功,治理和控制需要作為解決方案的一部分,而不是事后諸葛亮。數據智能平臺超越了傳統 BI 平臺對可視化的強調,包括:
- 自然語言通達 (即 “認知層”)
- 語義編目與發現
- 自動化管理與優化
- 加強管治并保護私隱
有越來越多的工具實現 SQL 接口來查詢數據,任何可以使用 SQL 查詢的數據源都可以被Data Agent使用。通過Data Agent 的 API ,我們可以構建自己的 UI,并向用戶提供有價值的見解。
4. AI驅動數據分析的收益
那么,誰能從這樣的AI解決方案中受益呢? 主要受益者是數據團隊和業務用戶 (即數據使用者)。
4.1 Data Agent 如何幫助數據團隊
Data Agent 通過自動化數據處理、實時監控數據質量、智能數據發現和任務調度優化,幫助數據團隊提升效率。它能夠自動執行ETL任務,減少人工干預,確保數據準確性;通過機器學習發現數據中的模式和趨勢,生成洞察報告;同時優化任務執行順序,提升資源利用率。此外,Data Agent 還支持團隊協作與知識共享,確保數據安全與合規性,為數據團隊提供可靠的技術支持,助力數據驅動決策。
問題 | 對于數據團隊 |
工具構建需要大量的時間,如UI、安全性、可擴展瓶頸、準確性問題等 | 容易通過接口構建并瀏覽指標何其他信息,使用API 完成定制 |
數據消費端的請求多樣,容易過載 | 通過數據飛輪解決復雜問題 |
儀表盤存在太多過濾器,太多的視圖 | Data Agent 實現精確分析,按需提供指標信息 |
4.2 Data Agent 如何幫助業務用戶
Data Agent 通過簡化數據訪問和分析流程,幫助業務用戶更高效地利用數據。它提供直觀的可視化工具和自然語言查詢功能,使非技術用戶也能輕松獲取所需數據并生成報告。Data Agent 還能自動分析業務數據,識別關鍵趨勢和異常,提供 actionable insights,幫助用戶快速做出數據驅動的決策。此外,它支持個性化數據推送,確保用戶及時獲取與其工作相關的信息,提升業務效率和決策質量。
問題 | 對于業務用戶 |
用戶又太多選項來訪問數據,學習成本較高 | 通過自然語言使用 Data Agent 訪問原始信息和數據庫, |
用戶不能直接判斷數據源是否可信 | Data Agent 通過指標比對的方式完成數據治理, 并指出指標之間的差異 |
部門間存在數據藩籬 | Data Agent 能夠共享不同團隊間的信息 |
用戶希望訪問底層數據 | Data Agent基于語義層來實現數據的準確性和可靠性 |
在dashboard上增加新的過濾器或視圖需要數周的時間 | 對于ad hoc 請求可以秒級響應 |
5. Data Agent 的發展趨勢
許多產品都在宣傳 “專有的AI數據分析師” 或 “專有的AI數據科學家”。然而,未來將是把所有這些數據角色集成到一個或多個Data Agent中。這個Data Agent最終將能夠覆蓋數據成熟度生命周期的所有方面,包括但不限于:
- Ad Hoc 和 Reactive 查詢
- 描述性報道 (“發生了什么”)
- 診斷報告 (“為什么會發生?”)
- 預測分析 (“會發生什么?”)
- 規范性分析 (“如何讓它發生?”)
大多數數據分析領域的解決方案都涵蓋了數據成熟度生命周期的特定方面。然而,Data Agent 的目標是最終封裝數據分析的所有領域,真正為業務交付價值。
【參考資料】
- https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/
- https://www.insidehighered.com/news/tech-innovation/teaching-learning/2024/01/25/data-science-major-takes-across-college-campuses
- https://yale-lily.github.io/spider
- Are we Done with MMLU? https://arxiv.org/html/2406.04127v1
- https://blog.langchain.dev/what-is-a-cognitive-architecture/
- https://www.databricks.com/blog/what-is-a-data-intelligence-platform