譯者 | 晶顏
審校 | 重樓
去年,大模型經歷了爆炸式增長,進一步完善了人工智能解決問題的能力。今年,隨著炒作的熱度消退,大模型進入了更深層次的階段,旨在重塑各行業的基礎邏輯。在大數據處理中,大模型與傳統ETL (即提取Extract、轉換Transform、加載Load)過程之間的沖突引發了新的爭論。大模型以“Transformers”(一種基于自注意力機制的深度學習模型)為特征,而ETL則依賴于“Transform(轉換)”過程——相似的名稱代表了截然不同的范式。
一些聲音大膽地預測:“ETL將在未來被完全取代,因為大模型可以處理所有數據!”這是否標志著支撐數據處理數十年的ETL框架的終結?或者這僅僅是一個被誤解的預測?這種沖突的背后是對科技未來的更深層次的思考。
大數據處理(ETL)會消失嗎?
隨著大模型的快速發展,一些人開始猜測,包括ETL在內的傳統大數據處理方法是否仍然有存在的必要。能夠自主學習規則并從大量數據集中發現模式的大模型無疑令人印象深刻。然而,我的答案很明確:ETL不會消失!原因在于大模型仍然無法解決下述幾個核心數據挑戰:
1. 效率問題
盡管大模型在特定任務中表現出色,但它們會產生巨大的計算成本。訓練一個大型的Transformer模型可能需要數周的時間,并消耗大量的能源和金錢。相比之下,ETL依賴于預定義的規則和邏輯,效率高,消耗資源少,并且擅長處理結構化數據。
對于日常的企業數據任務,許多操作仍然是規則驅動的,例如:
- 數據清洗:使用清晰的規則或正則表達式清除異常。
- 格式轉換:標準化格式,方便跨系統的數據傳輸和集成。
- 聚合和統計:對每日、每周或每月的數據進行分類、聚合和計算。
這些任務可以由ETL工具快速處理,而無需大模型的復雜推理能力。
2. 自然語言中的歧義
大模型在自然語言處理(NLP)方面表現出色,但也暴露了人類語言的歧義性和模糊性這一固有挑戰。例如:
- 單個輸入查詢可能根據上下文產生不同的解釋,不能保證準確性。
- 數據質量的差異可能導致模型生成的結果與實際需求不一致。
相比之下,ETL是確定性的,它根據預定義的規則處理數據,以產生可預測的標準化輸出。在金融和醫療保健等高需求行業,ETL的可靠性和精度仍然是關鍵優勢。
3. 對結構化數據有很強的適應性
大模型擅長從非結構化數據(例如,文本、圖像、視頻)中提取見解,但它們通常難以處理結構化數據任務。例如:
- 傳統的ETL能夠有效地處理關系數據庫,處理復雜的操作,如JOINs和GROUP BYs。
- 大模型需要在處理之前將數據轉換為特定格式,從而導致冗余和延遲。
在由結構化數據(例如表、JSON)主導的場景中,ETL仍然是最佳選擇。
4. 可解釋性和遵從性
大模型通常被稱為“黑匣子”。即使數據處理完成,它們的內部運作和決策機制仍然不透明。具體表現為以下方面:
- 無法解釋的結果:在金融和醫療等受監管的行業中,由于缺乏透明度,大模型的預測可能無法使用。
- 遵從性挑戰:許多行業需要對數據流和處理邏輯進行全面審計。大模型及其復雜的數據管道和決策機制構成了重大的審計挑戰。
相比之下,ETL提供了高度透明的過程,每個數據處理步驟都有文檔記錄和可審計,確保符合公司和行業標準。
5. 數據質量和輸入標準化
大模型對數據質量非常敏感。噪音、異常或非標準化輸入都會嚴重影響其性能:
- 數據噪音:大模型無法自動識別錯誤數據,可能會將其用作“學習材料”并產生有偏見的預測。
- 缺乏標準化:將原始的、未經清理的數據輸入大模型可能導致不一致和缺失值,這需要像ETL這樣的預處理工具。
ETL確保在將數據輸入大型模型之前對數據進行清理、重復數據刪除和標準化,從而保持數據質量高。
盡管大模型在許多領域表現出色,但它們的復雜性、對高質量數據的依賴、硬件需求和實際限制都說明它們無法完全取代ETL。作為一種確定性的、高效的和透明的工具,ETL將繼續與大模型共存,為數據處理提供雙重保障。
CPU vs. GPU:等同于ETL vs.大模型
雖然ETL是不可替代的,但大模型在數據處理領域的興起也是必然趨勢。幾十年來,計算系統以CPU為中心,其他組件被視為外圍設備。GPU主要用于游戲,但今天,數據處理依賴于CPU和GPU(或NPU)的協同作用。這種模式的轉變反映了更廣泛的變化,反映在英特爾和英偉達的股票趨勢上。
從單中心到多中心計算
從歷史上看,數據處理架構從“以CPU為中心”演變為“CPU+GPU(甚至NPU)協作”。這種由計算性能需求的變化所驅動的轉變深刻地影響了數據處理工具的選擇。
在以CPU為中心的時代,早期的ETL進程嚴重依賴CPU邏輯進行數據清理、格式化和聚合等操作。這些任務非常適合CPU的順序處理能力。
然而,復雜數據格式(音頻、視頻、文本)的興起和存儲的指數級增長揭示了CPU能力的局限性。GPU以其無與倫比的并行處理能力,在訓練大型Transformer模型等數據密集型任務中占據了中心位置。
從傳統ETL到大模型
傳統的ETL流程,針對“以CPU為中心”的計算進行了優化,擅長處理基于規則的結構化數據任務。具體例子包括:
- 數據驗證和清理。
- 格式標準化。
- 聚合和報告。
相比之下,大模型需要GPU能力來進行高維矩陣計算和大規模參數優化。具體例子包括:
- 預處理:實時標準化和數據分割。
- 模型訓練:涉及浮點運算的計算繁重任務。
- 推理服務:優化批處理,實現低延遲和高吞吐量。
這反映了從邏輯計算到神經推理的轉變,將數據處理擴展到包括推理和知識提取。
面向大模型的新一代ETL架構
大模型的興起凸顯了傳統數據處理的低效率,需要更先進、更統一的架構。
當前數據處理中的痛點
- 復雜、碎片化的流程:數據清理、注釋和預處理仍然是高度手工化和孤立的。
- 低可重用性:團隊經常重新創建數據管道,導致效率低下。
- 質量不一致:缺乏標準化的工具會導致數據質量的變化。
- 高成本:每個團隊獨立的開發和維護會增加成本。
解決方案:AI增強ETL工具
未來的ETL工具將嵌入人工智能功能,將傳統優勢與現代智能相結合。具體包括以下幾點:
- 嵌入生成:內置支持文本、圖像和音頻矢量化。
- LLM知識提取:非結構化數據的自動結構化。
- 動態清理規則:數據清理策略的上下文感知優化。
- 非結構化數據處理:支持關鍵幀提取、OCR和語音到文本。
- 自動增強:智能數據生成和增強。
終極趨勢:Transformers + Transform
隨著技術的不斷進步,大模型與傳統ETL技術逐漸融合。下一代ETL架構有望將大模型的智能與ETL的效率結合起來,創建一個能夠處理各種數據類型的綜合框架。
硬件:數據處理單元的集成
數據處理的基礎正在從以CPU為中心的系統轉向涉及CPU和GPU的協作方法:
- CPU用于基礎任務:CPU擅長基本操作(如初步數據清理、集成)和基于規則的處理(如提取、轉換和加載結構化數據)。
- GPU用于高級分析:GPU具有強大的并行計算能力,可以處理預處理數據上的大模型訓練和推理任務。
這一趨勢不僅體現在技術創新上,也體現在行業動態上:英特爾正在推進用于CPU-AI協作的人工智能加速器,而英偉達正在將GPU應用擴展到傳統的ETL場景。CPU和GPU之間的協同作用為下一代數據處理提供了更高的效率和智能支持。
軟件:數據處理架構的集成
隨著ETL和大模型功能日益交織在一起,數據處理正在演變成一個多功能的協作平臺,其中ETL作為大模型的數據準備工具。
大模型在訓練過程中需要高質量的輸入數據,ETL為其提供了初步處理,創造了理想的條件。具體表現為以下方面:
- 噪聲去除和清洗:消除噪聲數據,提高數據集質量。
- 格式化和標準化:將多種數據格式轉換為適合大模型的統一結構。
- 數據增強:通過預處理和基于規則的增強來擴展數據規模和多樣性。
AI增強ETL架構的出現
ETL工具的未來在于嵌入AI功能,以實現更智能的數據處理:
1.嵌入功能
- 集成用于生成嵌入的模塊以支持基于向量的數據處理。
- 生成文本、圖像和音頻的高維表示;在下游任務中使用預訓練模型進行語義嵌入。
- 直接在ETL工作流中執行嵌入計算,減少對外部推理服務的依賴。
2.LLM知識提取
- 利用大語言模型(LLM)有效地處理非結構化數據,提取實體和事件等結構化信息。
- 完成和推斷復雜的字段,例如填充缺失值或預測未來趨勢。
- 在數據集成期間支持多語言數據翻譯和語義對齊。
3.非結構化數據識別和關鍵幀提取
- 原生支持視頻、圖像和音頻數據,支持注釋或訓練數據集的自動關鍵幀提取。
- 從圖像中提取特征(例如,對象檢測,OCR)并執行音頻到文本的轉換,情感分析等等。
4.動態清理規則
- 根據數據上下文動態調整清理和增強策略,以提高效率和相關性。
- 實時檢測異常并生成自適應清理規則。
- 優化特定領域(例如,金融、醫療保健)的清潔策略。
5.自動數據增強和生成
- 通過人工智能模型動態增強數據集,例如同義詞替換、數據反翻譯、對抗性樣本生成等。
- 擴展低樣本場景的數據集,支持跨語言或跨領域的數據生成。
AI增強的ETL代表了傳統ETL的轉型飛躍,提供嵌入生成、基于LLM的知識提取、非結構化數據處理和動態規則生成,以顯著提高數據處理的效率、靈活性和智能。
案例研究:Apache seattunnel——新一代AI增強ETL架構
例如,開源Apache SeaTunnel項目通過支持創新的數據格式和先進的處理能力,打破了傳統的ETL限制,展示了數據處理的未來:
- 原生支持非結構化數據:SeaTunnel引擎支持文本、視頻和音頻處理,以滿足不同的模型訓練需求。
- 向量化數據支持:實現深度學習和大模型推理任務的無縫兼容。
- 嵌入大模型功能:SeaTunnel v2.3.8支持嵌入生成和LLM轉換,將傳統的ETL與AI推理工作流連接起來。
- “Any-to-Any”轉換:將數據從任何來源(例如,數據庫、binlogs、pdf、SaaS、視頻)轉換為任何目標格式,提供無與倫比的多功能性。
SeaTunnel等工具說明了現代數據處理如何演變為人工智能+大數據全棧協作系統,成為企業人工智能和數據戰略的核心。
結語
大模型Transformers和大數據Transforms不是競爭對手,而是盟友。數據處理的未來在于ETL與大模型的深度融合,具體如下所示:
- 協作數據處理單元:利用CPU-GPU協同進行結構化和非結構化數據處理。
- 動態數據處理架構:將AI功能嵌入ETL,用于嵌入生成、LLM知識提取和智能決策。
- 下一代工具:像Apache SeaTunnel這樣的開源解決方案突出了這一趨勢,實現了“Any-to-Any”的數據轉換,并重新定義了ETL邊界。
大模型與ETL的融合,將推動數據處理進入智能化、標準化、開放的新時代。通過滿足企業需求,這種演變將推動業務創新和智能決策,成為未來數據驅動型企業的核心引擎。
原文標題:Why ETL and AI Aren’t Rivals, but Partners in Data’s Future,作者:William Guo