譯者 | 核子可樂
審校 | 重樓
如今,平臺工程師負責解決的需求正在迅速演變,由最初DevOps自然演化的產(chǎn)物發(fā)展成一門職責不斷擴展的獨特學科。當下的平臺工程師不僅需要管理日益復雜的云原生環(huán)境,還要為整個企業(yè)構建AI基礎設施。
Gartner指出,到2026年,80%的大型軟件工程組織都將建立起平臺工程團隊,充分可復用服務、組件及應用交付工具的內部提供方——這一比例顯著高于2022年的45%。到2027年,平臺工程更將顯著影響基礎設施與運營團隊的技術選型,影響超過半數(shù)決策。
一路走來,從DevOps到平臺工程的演變
DevOps作為一種文化與技術運動的產(chǎn)物,旨在打破開發(fā)與運營團隊之間的隔閡。它奠定了至關重要的基礎,即建立CI/CD管線、基礎設施即代碼與責任共擔模型。但隨著云原生架構的廣泛落地,大規(guī)模分布式系統(tǒng)的管理復雜性迫使人們進行新的專業(yè)化分工。
平臺工程正是為了應對這種復雜性而誕生。平臺團隊不可能指望每位開發(fā)者都成為K8s專家,也不要求每位運營工程師都了解現(xiàn)代應用程序框架間的細微差別,而是建立抽象層來簡化基礎設施使用。他們建立起內部開發(fā)者平臺,通過API、接口與自動化機制將復雜基礎設施轉化為自助功能。
而隨著AI應用快速成為主流,新一波需求也隨之而來。AI工作負載與傳統(tǒng)應用程序有著根本不同,對于現(xiàn)有平臺工程實踐提出了新的要求:
- 統(tǒng)一訪問實時數(shù)據(jù)與歷史數(shù)據(jù):AI系統(tǒng),特別是自主決策系統(tǒng),需要無縫訪問流式數(shù)據(jù)(用于實時上下文)及歷史數(shù)據(jù)(用于訓練及提取廣泛模式);
- 跨數(shù)據(jù)域的一致治理:當AI系統(tǒng)訪問多個來源的數(shù)據(jù)時,權限、模式或沿襲跟蹤方面的不一致可能導致結果不可靠或治理失敗;
- 高效數(shù)據(jù)移動:將流式基礎設施與數(shù)據(jù)倉庫彼此分離的傳統(tǒng)架構,迫使系統(tǒng)間進行持續(xù)且昂貴的數(shù)據(jù)移動,由此產(chǎn)生延遲并令成本呈指數(shù)級增長;
- 橫向擴展以實現(xiàn)經(jīng)濟效益的可預測性:AI工作負載往往以難以預測的方式急劇擴展,因此需要在成本線性增加的前提下對基礎設施進行橫向擴展。
種種因素的疊加,導致平臺工程師們面臨一個悖論:如何在保持運營穩(wěn)定性、治理和成本效率的同時,快速實現(xiàn)AI創(chuàng)新。
平臺工程師的新使命
現(xiàn)代平臺工程師必須將基礎設施的復雜性抽象出來,轉化為精心設計的API與自助接口。對于AI工作負載而言,這意味著構建平臺,使數(shù)據(jù)科學家和機器學習工程師能夠以編程方式訪問具有適當計算資源的訓練環(huán)境、針對延遲或吞吐量進行優(yōu)化的推理環(huán)境、跨流式及批量域的統(tǒng)一數(shù)據(jù)訪問,同時提供標準化的可觀察性與監(jiān)控支持。
成功的平臺團隊應該創(chuàng)造出讓AI開發(fā)者專注于模型和應用程序、而非基礎設施配置的順暢體驗。為此,我們最需要關注的技能包括:
- 數(shù)據(jù)鄰近性設計。數(shù)據(jù)鄰近性原則(即立足數(shù)據(jù)所在位置處理數(shù)據(jù),而非移動數(shù)據(jù))對于AI基礎設施至關重要。平臺工程師應當實現(xiàn)統(tǒng)一的存儲格式,例如Apache Iceberg或Delta Lake,以便在流式與批量工作負載間無縫協(xié)作。通過將云原生對象存儲作為各種數(shù)據(jù)類型的核心基礎,團隊可以為各類工作流程建立一致的基礎層。這種方法還應輔以區(qū)域感知處理能力,以最大限度減少昂貴的跨區(qū)域數(shù)據(jù)傳輸,并配合無主導架構消除昂貴的復制流量。總之,這些策略能夠將基礎設施成本降低一個數(shù)量級,同時提升AI工作負載性能。
- 統(tǒng)一數(shù)據(jù)治理。對流式數(shù)據(jù)及歷史數(shù)據(jù)的訪問,帶來了獨特的治理挑戰(zhàn)。平臺工程師必須建立統(tǒng)一的目錄和治理機制,確保所有數(shù)據(jù)源的一致訪問控制,同時提供集中式模式管理與演進體系。這些系統(tǒng)應在整個數(shù)據(jù)生命周期內保持端到端數(shù)據(jù)沿襲跟蹤及標準化的合規(guī)性與監(jiān)管控制。通過實施涵蓋實時及批量數(shù)據(jù)域的目錄,平臺工程師可以顯著降低AI系統(tǒng)的治理失敗風險,同時簡化開發(fā)者體驗。
- 基礎設施的自動擴展與優(yōu)化。AI工作負載對于資源需求往往具有不可預測性,這要求平臺團隊建立復雜的自動化體系。高效平臺應將基于實際資源利用率的彈性擴展及資源分配的自動優(yōu)化結合起來,并將其擴展至基于使用量的定價與計費模型,以便在保持亞當性的同時建立問責制度。此外,基于數(shù)據(jù)局部性的工作負載智能布局則可確保最佳性能,同時最大限度減少不必要的數(shù)據(jù)移動。這些功能間協(xié)同起效以控制成本,并確保AI應用程序在必要時能夠精準獲取所需資源、全程無需人為干預。
- 促進跨職能協(xié)作與技能發(fā)展。更重要的是,平臺工程師有望彌合可能阻礙AI應用的傳統(tǒng)組織孤島,推動數(shù)據(jù)工程、機器學習工程和運營團隊立足統(tǒng)一術語與協(xié)作實踐開展合作。成功的平臺團隊會跨領域部署通用工具,并設計出能夠適應不同專業(yè)水平(從新手數(shù)據(jù)科學家到經(jīng)驗豐富的機器學習工程師)的平臺。通過建立全面的學習資源與說明文檔,賦能不同背景的開發(fā)人員,最終打造出有利于AI創(chuàng)新蓬勃發(fā)展的內部環(huán)境。
面向AI時代的統(tǒng)一基礎設施
最具前瞻性的平臺工程師正逐漸摒棄專為流式傳輸、批量及AI工作負載使用的獨立基礎設施技術棧。他們開始構建統(tǒng)一基礎設施,結合通用抽象、存儲格式及治理模型高效處理不同工作負載。
這種統(tǒng)一方法帶來了三大關鍵優(yōu)勢:
- 大幅降低成本:通過消除冗余的基礎設施及昂貴的數(shù)據(jù)移動,組織可以將AI基礎設施的總成本降低達80%。
- 加速創(chuàng)新:開發(fā)者可以通過一致接口訪問所有數(shù)據(jù),而無需等待復雜的ETL流程,進而快速迭代AI應用程序。
- 增強治理與合規(guī):統(tǒng)一方法可在所有數(shù)據(jù)域內實現(xiàn)一致的安全性、隱私性與監(jiān)管控制。
隨著AI成為企業(yè)中的新核心,平臺工程師們開始掌握AI可持續(xù)應用與集成的鑰匙。通過重構新時代基礎設施,即優(yōu)先考量數(shù)據(jù)鄰近性、統(tǒng)一治理與開發(fā)者體驗,工程師們可以在保障卓越運營的同時高效推動AI創(chuàng)新。
原文標題:Today’s Platform Engineer Needs to Build AI-Ready Infrastructure,作者:Sijie Guo