AI多模態場景對數據管理帶來的挑戰有哪些?
在數據應用場景中,數據源屬于數據管理是非常的一個環節,包括數據源、數據集成、生命周期、數據地圖、數據標注、數據安全、主數據等等等,數據管理也是整個數據治理體系中最核心的部分之一,面向智算領域的數據能力,對于AI數據治理會有一些新的挑戰。
在過去數十年的大數據領域發展過程中,結構化數據和半結構化數據處理都是其中絕對的主角,結構化和半結構化數據由業務流程產生,與商業價值高度相關,這些數據與企業的流程業務及商業化息息相關,SAAS軟件領域也逐漸演化出了非常成熟的產品及處理能力。
關于數據類型的對比
根據 Gartner 的數據顯示,結構化和半結構化數據僅僅占到全世界數據比例的不到 20%,其他 80%以上均是非結構化數據。在過去的技術能力下,非結構化數據難以處理,價值難以被挖掘和衡量,有研究顯示大量辦公文檔類的數據在整個生命周期內最多只被使用過 2 次,相比較其被努力創造出來的投入相比產生的價值極為有限。
過去數據分析場景的數據大多是結構化的數據為主,AI多模態場景中的數據大多數是非結構化數據為主。
數據分析場景和 AI 多模態場景中數據來源特點
- 絕?部分是?結構化數據(例如?本、語? / 視頻、HTML ??)
- 更多樣性的數據源,事務性關系型數據源、OLAP 類型、向量化類型、K/V 類型、對象存儲類型
- 數據體量更加龐?,AI 預處理數據和訓推數據少則???百 TB 多則 PB 級別,相??數據分析型?出數倍。
AI場景數據來源
- 開源數據集(例如從AI Gallery、 HuggingFace 、OpenDataLab 等等)
- 對象存儲
- 其它SAAS類的第三方公司
- 企業自身積累數據
從數據管理角度來說,針對數據層面后續會有更多的場景能力需要支持,例如
- 外部海量數據拉取能力(數據源管理)
- 數據預處理(清洗、標簽)
- 數據質量評估(固定策略、模型檢測)
- 數據標注能力(自動標注、人工標注)
- 數據分享(內外部)
典型大語言模型所需數據類型分布情況
大體上來看,可以分為如下幾種類型:
- 通用型數據(網頁、書籍、論文、百科全書、代碼等)
- 領域型數據(金融、法律、醫療、教育等等)
- 對話類型(多語言識別轉化)
從數據流轉到模型訓練的過程
流程說明
1. 原數據集
原數據可以是企業數據、外部數據、開源數據等等,也由于數據的多樣性,在后續的數據流轉中每個環節可能接觸使用的數據是不同的, 所以對于數據安全、數據審計、數據質量、數據存儲、數據影響分析、數據可信、數據合法性、第三方數據集(“有毒”數據)驗證等等方面都要有相關的能力支持,才能降低平臺型風險。
2. 數據集成
數據集成能力是數據流入/流出的核心能力,其次在數據集成中也可以進行數據校驗、規則檢查、安全檢測等等基礎性動作。
在AI模型中,過去數據分析場景的數據集成管道的邏輯可能不太能通用,數據管道是連接原始非結構化數據和完全訓練好的LLM的通道,它們確保數據得到適當的收集、處理和準備,使其準備好進入LLM構建過程的訓練和驗證階段
- 數據提取:數據從其來源提取,來源可以是數據庫、數據倉庫,甚至是外部 API。
- 數據轉換:原始數據需要被清理并轉換為適合分析的形式。轉換包括處理缺失值、糾正不一致的數據、轉換數據類型或對分類變量進行獨熱編碼。
- 數據加載:轉換后的數據被加載到存儲系統,如數據庫或數據倉庫。然后這些數據就可以在機器學習模型中使用。
特性:
- 異構數據同步
- 跨云、跨環境、跨源數據同步
3. 數據準備
機器學習算法需要將原始輸入數據轉換為表示數據他們可以理解的形式。此數據準備步驟可能會影響安全性和ML系統的可解釋性,因為數據在安全性中起著關鍵作用。數據準備包括如下幾類:
數據清洗和格式化
- 數據清洗和格式化包括處理缺失值或異常值,確保數據格式正確,并刪除不需要的列。例如,填補缺失值、移除異常值以及將數據轉換為所需的格式。
數據預處理
- 數據預處理包括數值轉換、數據聚合、文本或圖像數據編碼以及創建新特征等任務。這些步驟有助于將原始數據轉換為適合機器學習模型的形式,提高模型的性能。
數據合并
- 數據合并包括連接表格或合并數據集等任務。通過合并不同來源的數據,可以整合更多信息,從而更好地支持分析和建模工作。
4. 數據標注
- 數據標注包括識別原始數據(如圖像、文本文件、視頻等)并添加一個或多個有意義且信息豐富的標簽,以提供上下文,使機器學習模型能夠從中學習。例如,在圖像分類中為每張圖像添加類別標簽。
數據驗證和可視化
- 數據驗證和可視化包括探索性數據分析,以確保數據正確且準備好用于機器學習。直方圖、散點圖、箱線圖、折線圖和條形圖等可視化工具都是確認數據正確性的有用工具。這些可視化方法可以幫助識別潛在問題,并確保數據的質量和一致性。
5. 數據集
數據準備完成之后分為不同的數據集:訓練集、驗證集/保留集、測試集。
- 訓練集用作機器學習算法的輸入。
- 驗證集用于調整超參數并監視機器學習算法過擬合。
- 在學習完成后使用測試集來評估性能。
6. 數據目錄
- 數據組織資產的工具(多種數據源服務)
- 審計跟蹤
- 端到端的機器學習生命周期機制
- 模型數據的可追溯和資產透明
AI多模態對數據方面的挑戰有哪些?
一方面 AI 大模型本身即是由海量非結構化的文檔及多模態數據訓練而成,企業可以應用自身沉淀的大量非結構化數據進行,模型訓練及精調。另一方面在如 RAG 類型的技術框架的幫助下,非結構化數據可以通過AI 解析及外掛向量數據庫的方式得以實現解析及結構化,用戶可以輕松實現如ChatWithPdf 等類型的業務。
隨著GenAI的廣泛應用,非結構化和多模態數據的價值開始被重視,但是這些數據的管理和利用是目前AI系統還有很多難點:
本文轉載自??DataForAI??,作者:易程Date
