新型IT運維管理,基礎設施和數據兩手都要硬
AI大模型時代,數據賦予IT人“新使命”
當下IT人在企業中扮演著運營支撐的角色。說到運維管理,相信每人都是一把辛酸淚,每天承擔著繁瑣、高負荷且又高風險的運維工作,但在業務規劃和職業發展時又成為了“透明人”。業內有句調侃的話:“只花錢的人,不配擁有發言權”。
隨著AI大模型應用的普及,數據成為了企業的關鍵資產和核心競爭力。近年來,企業的數據規模從PB級向百PB級成倍數快速增長,數據類型也從以數據庫為主的結構化數據,演變成以文件、日志、視頻等為主的半結構化、非結構化數據。業務部門希望數據的存儲能夠像圖書館一樣分門別類隨用隨取,同時又希望數據的存儲更安全、更可靠。
IT人,已不再只是負責建設和管理IT資源、保障設備穩定的被動角色。
IT人的新使命,演變為提供優質數據服務,讓數據好用,幫助業務部門用好數據!
“基礎設施”和“數據”很近,但兩者的“管理”卻很遠
針對基礎設施的管理,業界普遍的做法是通過AIOps技術,將繁瑣的人工日常運維改變為利用工具自動化執行,通過專家系統、知識圖譜等智能化能力,主動發現系統隱患、自動修復故障等。生成式AI技術普及后,近期出現了智能客服、交互式運維等新型應用。
針對數據的管理,業界有以Informatica、IBM等為代表的專業DataOps軟件供應商,支持數據集成、數據標記、數據分析、數據優化、數據市場等能力,為數據分析師、BI分析師、數據科學家等業務團隊提供服務。
筆者調研發現,目前大部分企業中的基礎設施運維管理和數據管理是割裂的,由不同的團隊負責,工具平臺間也沒有有效協同。業務上數據保存在存儲等IT基礎設施中,應該融為一體,但實際兩者的管理卻相隔甚遠,甚至兩個團隊之間語言都不對齊,這樣通常會帶來幾個弊端:
1)數據不同源:因為歸屬不同團隊和采用不同工具,業務團隊通常采用將原始數據通過ETL等方式復制一份至數據管理平臺做分析處理。這樣不僅造成存儲空間浪費,還存在數據不一致、數據更新不及時等問題,影響數據分析的準確性。
2)跨地域協同難:如今企業數據中心在多個城市布局,數據在跨地域傳輸時,當前主要通過DataOps軟件在主機層進行復制,這種數據傳輸方式不僅效率低,傳輸過程中也存在安全、合規、隱私等嚴重隱患。
3)系統優化不充分:當前通常基于基礎設施資源的利用情況進行優化,因為無法感知數據布局而實現全局最優,數據的保存成本居高不下,有限增長的預算與成倍的數據規模增長之間的矛盾成為制約企業數據資產積累的關鍵矛盾。
IT人,打通“基礎設施”和“數據”任督二脈,開啟數智化飛輪
筆者認為,IT團隊應該把“基礎設施”和“數據”作為一個有機整體進行管理和優化,實現數據同源、全局最優、安全流通,扮演著數據資產管理者的重要角色。
首先,實現全局文件的統一視圖。利用全局文件系統、統一元數據管理等技術,把不同地域、不同數據中心、不同類型設備中的數據形成統一的全局視圖。在此基礎上,能夠按照熱溫冷、重復、過期等維度進行全局優化策略的制定,下發至存儲設備執行,這種方式可以實現全局最優。基于存儲層復制的壓縮、加密等技術,通常可以實現數十倍的數據移動速度,效率和安全性都可以得到保證。
其次,將海量非結構化數據自動生成數據目錄。通過元數據、增強型元數據等自動生成數據目錄服務,把數據分門別類高效管理起來。業務團隊基于目錄可以自動提取滿足條件的數據進行分析處理,而不用人工像大海撈針一樣去找數據。筆者調研發現通過AI識別算法實現數據標注的技術已經較為成熟,因此可以利用開放框架將不同場景化的AI算法進行集成,自動分析文件內容形成多元化標簽,作為增強型元數據提升數據管理的能力。
同時,數據在跨設備流動時,需要特別考慮數據主權、合規隱私等問題。存儲設備中的數據應該自動分類、隱私分級、分權分域等,管理軟件對數據的訪問、使用、流動等策略進行統一管理,避免敏感信息和隱私數據泄露,未來數據要素交易場景這些將成為基本要求。比如,數據在流出存儲設備時,首先需要對合規性、個人隱私等進行判定是否滿足策略要求,否則企業將面臨嚴重的法律法規風險。
參考架構如下:
根據筆者調研以及請教同行專家后,發現業界諸如華為存儲、NetApp這樣的領先存儲廠商已經發布存儲和數據一體化管理的產品解決方案,相信未來會有更多廠商支持。
設備和數據兩手都要抓、兩手都要硬。IT人在AI時代可以扮演更重要的作用。