應對生成式AI的復雜性:HPE如何簡化AI平臺的構建與運維
生成式AI的挑戰
- 數據準備和管理:生成式AI的訓練需要整合分散在多個系統中的數據,數據格式復雜,常包含缺失值和噪聲,影響模型的訓練效果。企業需高效收集、清洗、轉換這些數據,并且要滿足大規模數據處理和高速存儲需求。同時,必須確保數據的安全和隱私合規。
- 模型訓練和部署:訓練生成式AI模型需要大量計算資源和長時間的訓練,硬件成本高且訓練周期長。選擇合適的模型架構和超參數至關重要,并且需要有效的版本控制來管理多個模型版本。將模型部署到生產環境時,需考慮其性能、可擴展性和可靠性。
- 人才和技能:生成式AI的開發要求具備數據科學、機器學習和軟件工程等多方面技能,但這類專業人才短缺。項目通常需要跨團隊協作,且技術更新迅速,人員需不斷學習和更新技能,才能跟上技術發展。
- 其他挑戰:生成式AI項目成本高,企業必須評估投資回報率。技術的倫理問題,如虛假信息傳播和算法偏見,需要企業在項目實施前制定應對策略。對于一些應用場景,模型的可解釋性和持續監控也是不可忽視的挑戰。
HPE Private Cloud AI
核心組件:
- HPE GreenLake云平臺:作為HPE混合云戰略的核心,HPE GreenLake云平臺提供了按需消費、彈性擴展和統一管理的云計算服務,為Private Cloud AI解決方案提供了靈活可擴展的基礎設施,并簡化了AI平臺的部署和管理流程。
- HPE AI Essentials:專門為Private Cloud AI定制的軟件平臺,包含預裝、預配置和預連接的AI工具和框架,例如Apache Airflow、Spark和Jupyter Notebook,以及NVIDIA AI Enterprise軟件棧。
- NVIDIA AI Enterprise:NVIDIA AI Enterprise軟件棧提供了GPU加速計算技術和AI軟件庫,用于優化AI模型的訓練和推理性能。
- 解決方案加速器(Solution Accelerators):即將推出的功能,將提供預配置的AI解決方案,涵蓋數據、模型和應用程序,用戶可以通過簡單的點擊操作即可部署特定類型的AI應用。
關鍵特性和優勢:
- 簡化的AI平臺部署:將復雜的AI基礎設施和軟件棧整合到一個易于部署和管理的平臺中,使企業能夠快速構建AI平臺并開始進行AI模型的開發和部署。
- 靈活可擴展的基礎設施:HPE GreenLake云平臺為Private Cloud AI解決方案提供了按需消費和彈性擴展的基礎設施,以滿足生成式AI應用對計算、存儲和網絡資源的需求。
- 統一的云平臺管理:HPE GreenLake云平臺提供了統一的管理控制臺,用于管理Private Cloud AI解決方案和其他云計算資源,簡化IT運維并提高AI平臺的管理效率。
- 增強的安全性:提供了多層次的安全措施,例如數據加密、訪問控制和安全監控,確保企業數據的安全性和合規性。
- 全面的AI工具和框架支持:HPE AI Essentials整合了各種開源和商業AI工具和框架,為數據科學家、數據工程師和AI開發人員提供了一個完整的AI開發環境。
- 與NVIDIA的深度合作:HPE與NVIDIA的合作確保了Private Cloud AI解決方案能夠充分利用NVIDIA的GPU加速計算技術和AI軟件庫,優化AI模型的訓練和推理性能。
- 抽象化和自動化:將AI應用開發和部署過程中復雜的技術細節抽象化,并提供自動化工具來簡化工作流程,使不同技術背景的用戶都能輕松使用AI技術。
目標用戶:
- 數據科學家:提供了一個完整的AI開發環境,包括數據準備、模型訓練、模型評估和模型部署等工具和框架。
- 數據工程師:提供了強大的數據處理和分析能力,例如數據采集、數據清洗、數據轉換和數據存儲等。
- AI開發人員:提供了一個平臺,用于構建、部署和管理各種AI應用,例如聊天機器人、推薦系統和欺詐檢測系統。
- IT管理員:提供了一個統一的管理控制臺,用于管理AI平臺的資源、用戶和安全策略。
應用場景:
- 生成式AI應用開發:開發各種生成式AI應用,例如文本生成、圖像生成、代碼生成和聊天機器人。
- 預測性分析:構建預測模型,用于預測未來趨勢、識別潛在風險和優化業務決策。
- 數據分析和洞察:從大量數據中提取有價值的洞察,幫助企業更好地了解客戶、市場和運營情況。
首先分享對企業基礎設施行業的觀察。在傳統討論框架中,我們的焦點主要落在現有客戶群體上。這些客戶通常會采購硬件設備,有時會將其與合作伙伴的軟件集成,以構建完整的解決方案。然而,以往的討論往往止步于此,最終用戶往往被排除在決策過程之外。
然而,這一狀況正在發生轉變。特別是隨著軟件即服務(SaaS)的蓬勃發展,以及像HPE這樣的公有云和混合云供應商對基礎設施進行抽象化處理,我們觀察到越來越多的終端用戶開始積極參與相關討論。近年來,這一趨勢尤為顯著——參與機器學習運維(MLOps)工作流的從業者,即那些負責推動生成式AI應用落地的人員,已不再僅僅作為被咨詢的對象,而是主動提出他們對基礎設施的具體需求。
這些需求正在迅速增長。今天,我想具體分析這些需求的本質、成因,以及為何過分追求快速達成最終目標可能并非最優策略。
我擁有機器人學工程學士學位。機器人學不僅涉及機器學習(ML)的應用,還包括控制算法的運用 - 后者本質上是簡化版的機器學習算法。在機器人學領域,核心目標是根據指令實現物理執行。系統需要解讀傳感器輸入和環境數據,據此執行特定動作,最終為用戶交付預期結果。
這個過程越自動化越好。舉例來說,如果能讓機器人在酒店內自主導航,到達指定房間并送上飲品,這將是一項非常實用的服務。也許到2025年,"Toby"這樣的服務機器人就能為希爾頓酒店提供客房服務!
分享這個例子是為了說明我對應用機器學習的理解。當我進入企業基礎設施領域后,我發現基礎設施的購買方與使用方之間經常存在術語理解上的差異。這種混淆通常源于定義不夠清晰。因此,在深入討論之前,我想明確今天我們將使用的術語,特別是在探討GenAI和AI時。
AI描述了模仿人類行為或決策過程的技術與行為。雖然機器學習通常用于實現AI,但兩者并非同義詞。機器學習是AI的一個子集,其核心是分析數據集以識別模式并作出預測。通過這一過程構建的模型通常被稱為神經網絡。
2017年,Google通過引入Transformer模型徹底改變了這一領域。這項創新使大型模型能夠生成實時預測,通過逐個token生成響應。Transformer模型成為了眾多現代生成式AI工具的基礎。它的工作原理是預測序列中的下一個片段,例如句子中的下一個詞。比如在"迅速的棕色狐貍跳過懶狗"這個短語中,模型會根據上下文預測每個后續詞。
通過在海量數據集上預訓練這些模型,產生了生成式預訓練變換器(Generative Pre-trained Transformer, GPT)。當這些模型經過優化以適應對話式輸入輸出時,便發展成了像ChatGPT這樣的工具,后者于2022年問世。這標志著大型語言模型(LLM)的崛起,它是Transformer的一個子集,并迅速成為主流AI應用。
分享這些背景是因為,傳統上基礎設施團隊無需過多關注AI抽象層面的具體細節。然而,LLM工作流的需求正在重塑基礎設施的范圍、設計、部署和服務方式。支持LLM的需求與其他機器學習技術有著顯著差異。在探討對企業基礎設施的影響時,理解這一區別至關重要。
Camberley Bates:在深入探討這個技術棧 - 或者說這些層級時,你如何看待不同角色在其中的作用?特別是考慮到我大致了解你計劃在這個產品中關注的方向。
Alexander Ollman:這個問題切中要害,是個很好的引子。因為在接下來的討論中,我特別想與大家一起探討并描述那些通常需要處理數據傳輸到神經網絡、進行大數據集預測AI和向生成式AI應用進行向量化的角色。
這些角色通常包括數據工程師(Data Engineer)、數據科學家(Data Scientist)、機器學習工程師(ML Engineer)、AI工程師(AI Engineer)和應用開發人員(Application Developer)。他們不僅在這一領域工作,而且貫穿整個基礎設施技術棧。如果可以的話,我想暫時擱置這個問題,因為接下來的討論將包括一個實際演示,展示如何通過底層基礎設施賦能這些角色。
這些應用之間存在顯著差異。目前,當我們談論AI這一術語時,通常指的是預測模型。
例如:
- 預測:預測未來兩個季度的房價或股票價格。在機器人學等領域,時間序列估算等時間相關的用例非常普遍。
- 填補缺失值:在數據集中補充缺失項。比如在缺乏大規模數據集的情況下,利用小樣本民意調查數據來推斷整體群體的觀點。
- 檢測:物體檢測模型得到廣泛應用,尤其在醫療領域。
這些都是較小規模神經網絡模型的典型應用,它們的性能會隨著輸入數據量的增加而提升。然而,這些模型通常是為特定用例設計的。例如,每次打開Spotify時,多個數據流水線會觸發模型,實時生成個性化推薦。
相比之下,生成式模型規模龐大且計算密集。原因在于它們在海量通用數據集上訓練,且本質上設計為通用型模型。
對于特定任務,小型模型配合較小的數據集就能達到相同的準確度。而通用型大模型在處理通用應用時則需要顯著更多的計算資源。這種區別對基礎設施設計者來說極其重要,因為運行通用模型與特定模型的資源需求有著本質區別。
這正是當前市場的主要需求 - 在過去兩年中,它已成為每月的熱點話題。如果從股市表現來看,這種熱度可能會持續五年之久。
那么,在實踐中具體需求是什么呢?
- 希望立即部署代碼生成器,使團隊在代碼項目部署效率提升70-80%
- 希望通過自動從現有組織文檔生成報告來提高工作效率
- 希望為新聞通訊生成相關圖片,同時規避版權問題
- 希望部署對話式聊天機器人(Conversational Chatbot),能夠即時從組織數據中檢索答案
在實際應用中是什么樣子?它表現為一個已部署的應用程序。
這正是現代AI的魅力所在 - 它是一個針對特定用例定制的ChatGPT。這也解釋了為什么2022年11月打開了潘多拉魔盒。并非因為技術本身是新的(ChatGPT背后的模型早在2020年就已公開),而是因為用戶首次能夠將復雜的處理過程簡化為問答式交互這樣的簡單形式。
每個客戶、合作伙伴和利益相關者都迫切希望盡快實現這一目標。眾多軟件供應商也通過承諾快速部署來迎合這種需求。
要部署這樣的應用程序,需要完成以下關鍵步驟:
1. 數據上下文化(Data Contextualization):
應用程序需要組織特定的數據。數據可能存在于:
- 包含歷史記錄的結構化SQL數據庫
- 非結構化文檔,如PDF或分散存儲在多處的對象存儲中
數據收集并非易事,需要合適的訪問控制和準備工作。
2. 數據準備(Data Preparation):
- 結構化數據(如包含數百萬行的表格)需要查詢以提取相關子集
- 非結構化數據(如對象存儲中的文件)必須經過篩選以確定相關性
Brian Booden:這是首次區分結構化與非結構化數據。結構化數據來自數據庫(行與標準格式),而非結構化數據包括PDF、Word文檔和PowerPoint文件。你說的是哪種數據?
Alexander Ollman:兩種都包括。非結構化數據可能是存儲為對象的文件,如數據湖(Data Lake)中的PDF或JSON文件。結構化數據則涉及查詢數據庫獲取相關信息。獲取數據后,還需要進一步處理才能被大型語言模型(LLM)或類似生成式模型使用。
3. 數據選擇(Data Selection):
數據準備完成后,需要為特定用例選擇適當的數據。
4. 模型選擇或訓練:
- 選擇現成模型
- 必要時對現有基礎模型進行微調(Fine-tuning)
這一步驟需要軟件和硬件基礎設施支持。
5. 驗證(Validation):
驗證模型是否適合預期用例,可能包括:
- Beta測試
- 用戶反饋
- 法律合規性檢查
只有完成這些步驟,組織才能部署應用程序并開始獲取收益。
這些步驟都不簡單,需要細致規劃。盡管像HPE這樣的供應商在不斷抽象化和簡化這些流程,但理解和重視其中的復雜性仍然至關重要。
這些抽象化是如何實現的?從這些步驟來看,它自動化了數據準備工作。它能夠簡化多數據源的連接過程。它能夠創建數據流水線(Data Pipeline),使我能夠針對任何特定用例自動啟動數據流程。這些流水線可以基于事件或特定時間點觸發 - 每周一次、每季度一次 - 而這一切都可以自動化。這樣一來,這些工作就不再需要我手動執行了。
這還可能包括模型編排的自動化。例如,系統可以根據自然語言用例從模型庫中選擇合適的模型,為我啟動它,并確保選擇了正確的模型,讓我無需為此操心。
也許我們根本不需要這么復雜。或許我們可以通過一些預打包的LLM應用程序來實現更高層次的抽象,只需將數據傳遞給它們即可。這些抽象的效果取決于實施人員對系統的理解程度。這個概念貫穿各個層級的角色,不僅包括數據工程(Data Engineering)和數據科學(Data Science)領域的專家,還包括基礎設施層面的工作人員。
這一點極其重要,因為如果缺乏對數據的深入理解 - 確保數據經過精心策劃并遵循所有必要的準備步驟 - 輸入生成式模型的數據有時可能會產生偏離預期的結果。對某些場景這可能無關緊要,但對于大型跨國公司、銀行、航空公司或任何需要日常與客戶互動的組織來說,這種偏差是絕對不能接受的。
舉例來說,假設你是一家大型航空公司,需要安撫一位因模型錯誤解讀政策而受到誤導的客戶。這種錯誤源于模型接收的上下文數據未經充分訓練,是急于求成的結果。如果沒有適當的保障措施,或者對訓練、構建和驗證過程重要性缺乏理解,模型可能會造成嚴重損害。
比如,一個實施不當的模型可能會建議客戶購買競爭對手的汽車,或者提供完全不相關的信息,如制作雞蛋沙拉三明治的方法。這些不可預測的結果源于數據或實施錯誤,在企業環境中是難以接受的。特別是在昂貴的基礎設施上運營時,僅僅生成響應就需要承擔可觀的成本。
我們該如何應對這個挑戰?抽象化固然重要,但我們還需要加速AI投資(無論是預測型還是生成型)的價值實現。然而,這必須建立在充分理解底層過程的基礎之上。
讓我舉個例子,我的第一臺3D打印機是大約十年前購買的Robo 3D。它最初是一個Kickstarter項目,旨在成為首批商用家用3D打印機之一。不幸的是,這臺打印機75%的時間都無法正常工作 - 要么無法正確啟動、無法在打印床上附著,要么在完成第一層后就失去精度。這通常是由于水平校準不當、溫度問題或環境因素導致的。
經過多個不眠之夜的故障排查后,我的搭檔下了最后通牒:"要么選我,要么選打印機。"時光快進到今天,我擁有了一臺Bamboo X1 Carbon,這是一款經過顯著改進的型號,開箱即可使用。我不再需要手動拼接耗材或解決瑣碎問題。這臺打印機成功將復雜性抽象化,同時提供了流暢可靠的使用體驗。
然而,這種抽象化之所以有效,是因為我能夠理解它所簡化的復雜性。當出現問題時,我知道該預期什么,也知道如何與Bamboo的支持團隊溝通。這種理解對提升用戶體驗和故障排除至關重要。
這引出了生成式AI應用程序的七個步驟及其抽象化的具體實現。底層基礎設施需要幾個關鍵組件:
- GPU加速計算:現代模型規模已不再是幾十或幾百MB,而是以十GB計。例如,NVIDIA最強大的GPU擁有80GB顯存,僅能容納ChatGPT模型大約四分之一的規模。
- 高速存儲訪問和網絡:這些組件對于將模型高效傳輸到GPU顯存中至關重要。
- 基礎設施抽象化:多年來,基礎設施領域一直致力于抽象化技術復雜性。通過虛擬化軟件和資源調配,為不同角色提供支持,使他們能夠有效執行機器學習運維(MLOps)中的每個步驟。
只有在這些層次就位后,軟件應用層才能管理內部訓練、數據準備工具和最終用戶應用程序。即便如此,我們仍需要高效地部署和推理模型。
抽象化這些層次一直是我們努力的方向,這不僅是為了減少痛點,更是為了實現平臺級能力。基礎設施仍對專業人員開放,同時將工具和資源交付給需要的角色。這種方法使數據科學家、工程師和其他專家能夠專注于自己的任務,而無需過多關注底層的計算和存儲系統。
在了解機器學習運維(MLOps)工作流程的所有步驟時,有一個關鍵點我們尚未涉及,那就是實現這七個步驟所需的底層基礎設施的重要性。
接下來我們將聚焦于底層基礎設施,以及HPE Private Cloud AI提供的解決方案。我將通過一個實際案例并現場演示Private Cloud AI平臺來詳細說明。這不僅展示了HPE在私有云產品上的投入,更重要的是體現了我們與各類群體的深入互動——不僅包括基礎設施管理員和數據庫管理員,還包括那些致力于打造下一代企業創新的專業人才:數據科學家(Data Scientists)、數據工程師(Data Engineers)、機器學習工程師(ML Engineers)、AI工程師(AI Engineers)和應用開發人員(Application Developers)。
與HPE的眾多深入交流一樣,這次討論也是通過HPE GreenLake進行的。Private Cloud AI這款產品集中體現了HPE自近十年前從惠普公司分拆后確立的愿景。該愿景包含兩個核心目標:
1. 突破傳統基礎設施供應商的角色定位——不再局限于提供客戶自行管理的硬件和軟件,而是致力于為復雜場景提供定制化解決方案。
2. 認識到盡管公有云服務能帶來初期價值,但客戶越來越看重數據主權和基礎設施全生命周期的完整控制權。
Private Cloud AI正是這一愿景的具體實現。它提供真正的云計算體驗,通過基礎設施抽象化簡化最終用戶操作,同時保障客戶對網絡、存儲和計算資源的完全控制權和定制能力——這一切都在客戶自有數據中心內實現。
Private Cloud AI是一個面向數據工程、數據科學和機器學習的基礎設施技術棧,以設備形式交付,專門服務于GenAI時代。它簡化了工作流程,就像微波爐幾十年前簡化了食物加熱過程一樣。這個技術棧整合了硬件、軟件、網絡、存儲和計算資源,具備以下功能:
- 在基礎設施上自動部署和擴展容器化(Containerized)應用程序
- 通過統一的管理控制臺,根據不同角色需求集中管理應用程序和用戶
系統定義了三類主要角色:
1. 云管理員(Cloud Administrator):負責管理基礎設施訪問權限,如私有云解決方案,快速為用戶分配所需資源。
2. AI管理員(AI Administrator):負責用戶接入管理,控制跨應用程序的身份和訪問權限,確保數據源無縫集成——全部通過統一界面操作。
3. AI開發人員(AI Developer):專注于其專業工作(如運行查詢、構建模型),無需關注基礎設施管理細節。
例如,開發人員可以直接使用Jupyter Notebook、Apache Airflow或Spark等工具,而無需手動配置虛擬機或編排Spark節點。
系統的用戶管理非常直觀。管理員可以通過統一界面實現:
- 在Private Cloud AI實例中為團隊或個人分配角色
- 設定基礎設施和數據訪問權限,精確到結構化和非結構化數據源中的具體表格或存儲桶級別
舉例來說,我可以將用戶Abby指定為Private Cloud AI管理員,并設置具體的訪問限制。這些限制可能包括CPU、GPU或內存配額,以及特定數據資源的訪問權限,如PostgreSQL數據庫中的特定表格或存儲中的對象。
這種精細化的控制確保了數據訪問的安全性和效率,無需手動管理憑證——有效避免了諸如將AWS私鑰存儲在不安全位置等問題。
這種控制對于涉及結構化和非結構化數據的應用場景尤為重要。例如:
- 數據工程師登錄平臺查詢銀行交易相關的PostgreSQL表格
- AI管理員與數據庫管理員協作,驗證并連接各類數據源,如Snowflake、Oracle、MySQL或Microsoft SQL Server,實現無縫集成
需要注意的是,并非每個團隊成員都需要完全的數據庫訪問權限——只有負責管理連接的管理員才需要這些權限。
對于特定的數據格式,如Delta Lake和Iceberg表——這些通常用于大規模數據處理。Delta Lake類似于Parquet文件格式,常用于大規模數據集查詢。Iceberg則是另一種優化查詢性能的結構化數據格式。在連接數據庫時,Private Cloud AI需要進行身份驗證,確保只有獲得授權的用戶和角色能夠訪問特定資源。這種機制既保護了細粒度數據安全,又使組織能夠充分利用這些數據來推動AI驅動的業務洞察。
現在我們可以建立數據連接。以這個PostgreSQL服務器為例,連接建立后,平臺上的所有用戶都能使用相同的身份驗證訪問此數據源。
最便捷的是:作為用戶,我可以通過同一個連接器訪問該數據源,對特定表格執行SQL查詢。我可以生成SQL查詢并將結果以CSV文件、Parquet文件或其他任意格式保存到本地。
此外,這個數據連接器還支持將數據源與HPE Private Cloud AI的軟件平臺AI Essentials中的各種工具集成。
進入工具和框架界面后,我可以看到各種應用程序。稍后我會詳細介紹NVIDIA AI Enterprise技術棧,這些都是在AI Essentials中預裝、預打包、預連接并預配置的應用程序,專門用于Private Cloud AI。
讓我們以數據工程師的日常工作為例。作為新團隊成員,我首先需要與經理確認以下事項:
- 是否有權限訪問所需的客戶數據表
- 結構化數據源是否可用
- 身份驗證是否已完成配置
- 所有相關文件是否已存儲并更新在我們的存儲卷中(無論是在云服務商環境還是S3存儲桶中)
獲得訪問權限后,我需要構建數據流水線(Data Pipeline)。這涉及從數據源實時提取數據,進行轉換(如篩選出相關客戶數據),并將其加載到大型語言模型(LLM)可訪問的系統中。這就是經典的ETL過程。
Apache Airflow多年來一直是最受歡迎的開源工具。每個數據工程專業的研究生都熟悉它的使用。但通常需要聯系IT管理員來部署必要的基礎設施。需要注意的是,身份驗證不僅對工程師和Airflow必要,對所有訪問數據源的用戶同樣重要。
另一個關鍵需求是開發環境,用于編寫數據流水線,無論是使用R還是Python。Jupyter Notebook是最流行的開發環境。傳統上,部署這個環境需要向IT提交申請來啟動Jupyter Notebook服務器,隨后還需要將服務器節點與Airflow實例和其他數據源連接。
而在HPE Private Cloud AI中,用戶可以直接登錄并訪問Jupyter Notebook環境。例如,在這個Notebook中,我可以使用內部Token進行身份驗證,該Token能在Private Cloud AI平臺的所有容器間無縫傳遞信息和認證信息。
接著,我可以連接到S3實例,比如存儲層上的本地S3存儲。這種連接是預配置并預認證的,允許查看環境中所有有權限的存儲桶。如果存儲桶訪問權限變更,重新執行相同請求會自動返回更新后的列表。
作為數據工程師,我無需關注底層基礎設施,登錄即可開始工作。
這種便利性不僅限于數據工程。比如,在處理大型表格查詢時,我可以將查詢分布到多個計算節點上。就像在超大Excel文件上運行VLOOKUP一樣,這類操作在普通筆記本上可能需要數分鐘甚至數小時。對于包含數百萬行和數百列的數據集,處理時間可能長達一天。
通過HPE Private Cloud AI,我們可以在基礎設施層面將工作負載分布到高性能計算節點上。這是通過分布式大數據查詢引擎Apache Spark實現的。Spark采用主從架構(Master-Worker Architecture),主節點與工作節點協同執行分布式任務。傳統上,部署這類基礎設施需要安裝主節點、連接工作節點并處理作業認證。
在我的Jupyter Notebook環境中,可以無縫編寫和管理Spark查詢。使用Spark內核,我能直接從Notebook執行分布式查詢。例如,可以像更新Token一樣簡單地管理Spark作業。
我們的目標不是省略部署大型語言模型的必要步驟,而是簡化終端用戶的基礎設施配置過程。終端用戶希望專注于自身任務,而不必操心基礎設施管理。同時,組織內的基礎設施專家仍保持對硬件和軟件架構的完全控制。
這種簡化方法同樣適用于數據科學領域。假設我想基于聊天機器人(Chatbot)交互中發現的模式分析客戶數據。例如,測試可能顯示某些查詢經常出現。我可以請數據工程師提供一個匿名化數據集,去除客戶ID但保留交易模式。
利用這些數據,我可以構建一個預測模型(Prediction Model),用于處理自然語言查詢并預測最相關的字段或交易類型。
在模型存儲方面,傳統方法可能簡單地將其保存為文件。但現代機器學習工作流程(ML Workflow)是迭代式的。模型會持續優化,通常涉及數十個甚至上百個版本。多個團隊成員可能同時處理同一個模型。
這個迭代過程通常通過實驗管理來實現。即使有模型在生產環境運行,也會同時進行多個實驗,以確保新數據的引入不會導致模型漂移(Model Drift)或準確度下降。這些實驗還有助于驗證模型的無偏性(Unbiased)及長期準確性。
在這種情況下,我們需要將模型存儲在模型注冊表(Model Registry)中,以追蹤所有版本的多個實驗。當選定某個模型用于生產環境時,需要一個集成注冊表的跟蹤平臺,如MLflow。在這個環境中,MLflow通過身份驗證與每個數據源和應用程序連接。例如,這里可以看到MLflow用于存儲模型和訓練運行日志的存儲空間。
Max Mortillaro:組織如何使用這個系統?有什么門檻嗎?并非所有組織都是HPE客戶,也不一定愿意簽訂多年合同。如果他們想要開始某些操作,能否避免冗長的談判過程?
Alexander Ollman:你說的是這里展示的軟件和編排系統嗎?
Max Mortillaro:不,我指的是你展示的這個產品。這些大多是開源工具,但如果想采用你提出的集成方案,HPE在其中扮演什么角色?
Alexander Ollman:明白了。你看到的這些是HPE Esmeral的專有技術,是HPE AI Essentials技術棧的基礎。這個技術棧是專門為HPE Private Cloud AI定制的。需要說明的是,你不必作為產品的一部分購買底層基礎設施。AI Essentials也可以部署在現有的基礎設施上。
Max Mortillaro:你是說采購本地基礎設施。通過GreenLake是否可以使用類似的產品?
Alexander Ollman:是的。你看到的這種編排系統——連接和身份驗證軟件——是由HPE Esmeral技術棧提供的。即使沒有這個技術棧,你也可以手動部署Airflow或Spark等組件,并通過GreenLake合同使用這些資源。
在數據科學領域,工作流程類似。我只需要存儲和使用模型,而不必聯系IT部門來配置虛擬機(VM)、連接存儲桶或啟動MLflow。登錄后,即可打開MLflow,通過其用戶界面查看實驗,并管理所有保存的模型及其版本。
例如,我可以查看生產環境中模型的歸檔版本。在Notebook環境中,仍需通過導入MLflow、更新身份驗證Token并實例化MLflow客戶端來建立MLflow連接。完成這些后,就可以立即開始運行訓練作業并使用模型。
Camberley Bates:看來你們主要是利用開源工具為客戶提供解決方案。
Alexander Ollman:是的,這是我們的基礎服務。采用這種方法是為了能夠立即為客戶創造價值。
Camberley Bates:在這個技術棧中,除了集成工作,HPE的知識產權(IP)包括哪些內容?
Alexander Ollman:這是個復雜的問題,尤其是在軟件層面。HPE的知識產權主要體現在基礎設施方面——包括支撐上層應用程序的硬件和軟件。
Camberley Bates:你提到的Esmeral是從收購BlueData和MapR后開發的。這些產品的哪些部分被整合到了這個技術棧中?
Alexander Ollman:以BlueData產品為例,它是一個容器編排平臺,現已發展超越基礎設施層面,提供了出色的用戶界面體驗。它還集成了Kubeflow等工具,用于部署Jupyter Notebook服務器。
雖然模型注冊功能并非BlueData的專有技術,但它展示了將開源組件整合成一個無縫平臺的價值。
我們提供的是一個基礎設施平臺——包含軟件和硬件——用戶可以在其中使用自己的工具,只要這些工具支持容器化部署。這種方式確保了應用程序的認證和互操作性。
我們構建這個平臺時充分考慮了機器學習運維工作流。由于終端用戶已經在使用開源工具,我們的重點是將這些工具高效地整合到平臺中。
Camberley Bates:關于數據,假設我的數據存儲在文件系統或Nimble存儲設備的結構化數據庫中,我是否需要先遷移或進行ETL處理才能在系統中使用?然后,你們會對這些數據進行分類并管理隱私,對吧?
Alexander Ollman:這屬于數據工程工作流程的一部分。
Camberley Bates:我是否必須將所有數據集中在這個環境中,而不是使用數據湖(Data Lake)持續導入數據?
Alexander Ollman:不必如此。對于大型現有數據庫,我們可以創建連接器(Connector)。
Camberley Bates:你們有連接器?
Alexander Ollman:是的,確實如此。這些數據連接器支持與結構化數據庫和對象存儲的集成。除非必要,數據本身不會導入平臺。相反,我們只會引入與特定用例相關的數據。數據可以臨時存儲用于查詢,或進行緩存以減少重復處理。
從數據工程的角度看,一旦創建了與結構化數據源的連接器,就可以執行實時SQL查詢。為了高效完成這一過程,需要一個經過訓練的模型來處理和解釋查詢結果。
例如,數據科學家可能會創建一個模型,用于解釋SQL查詢結果并將其上下文傳遞給大型語言模型(LLM)等系統。然而,我的應用程序可能需要兩個生成式模型:一個用于對話任務(如Meta的Llama 3.2),另一個如SQLCoder,用于將自然語言查詢和數據庫架構轉換為SQL查詢。
這些模型可以部署為端點(Endpoint)。傳統上,這涉及手動步驟,如從Hugging Face或NVIDIA等模型注冊表獲取模型,通過VLLM或FastLLM等推理引擎處理,并將其加載到GPU內存中。
然而,最終用戶應用程序通常通過API連接。為簡化這個過程,我們可以將推理過程封裝在REST API服務器中,并作為容器部署。在基于Kubernetes平臺運行的HPE Private Cloud AI中,這些容器可以動態擴展。無論是支持單個用戶還是10萬用戶,基礎設施都能自動配置資源,并無縫擴展到多個私有云實例。
這種方法通過允許私有云實例共享基礎設施來保護AI投資。統一的控制平面使擴展突破單個集群的限制,確保資源高效利用。
從最終用戶角度看,一切都是透明的。例如,啟動LLM非常簡單。
使用Kubeflow等工具及其原生擴展KServe(預裝在AI Essentials中),我可以通過運行Kubernetes命令并使用配置文件部署容器化模型。這個配置文件指導Kubernetes如何部署,包括容器的擴展方式。
為優化性能,模型文件(可能有幾GB大小)在Private Cloud AI中本地存儲。這避免了從遠程存儲庫獲取文件時的延遲,特別是在部署多個容器實例時。
HPE與NVIDIA AI Enterprise的合作進一步優化了這個過程。NVIDIA提供用于模型推理的框架和庫,而HPE專注于企業級可擴展性。我們共同設計了易于快速擴展的大型企業工作負載容器化應用。
這種聯合工程努力持續推進,將NVIDIA在AI工具方面的專長與HPE在基礎設施方面的能力相結合,為企業提供強大且可擴展的AI解決方案。
在部署Llama 3等模型時,我可以展示端點的實際樣子。我想快速展示查看模型端點的方法——包括我正在使用的端點、我有權限訪問的端點,或我同事的端點。
對于那些已經構建了使用云服務提供商托管的LLM生成式AI應用的開發者——可能使用OpenAI、Microsoft、Google或Anthropic的服務——通常會獲得指向LLM實例的端點。這正是我這里展示的內容。我可以復制這個URL,查看運行的模型及其當前資源使用情況。
以我啟動的LLM為例,我快速對其格式化并以表格形式顯示。我可以查看每個模型實例。如果需要擴展,完全可以實現。例如,當前擴展設置為1,但我可以輕松調整。這是我的端點,我可以識別具體模型,然后將其集成到Notebook環境或應用程序中。
我可以在這里快速安裝它,將其命名為虛擬助手。我會將其分配到"AI數據基礎設施工作日"項目,并歸類到"數據科學"類別下。
Brian Booden:這是端點的模板結構嗎?根據構建的容器,它是否只是重用該容器的端點,為GET、PUT、DELETE等操作創建唯一的端點?
Alexander Ollman:沒錯。我們與NVIDIA的合作涉及所有必要組件,用于提取模型、封裝便于使用,并支持可擴展性。NVIDIA已完成這些基礎工作,而我們確保其能大規模部署。
Brian Booden:回到容器化討論,你是說一個容器的屬性可以傳遞到另一個容器嗎?能否擴展現有容器——例如,基于它建立基準,然后在此基礎上擴展?
Alexander Ollman:不完全是。無法動態管理容器資源,超出增減資源的范圍。例如,如果模型需要更多計算能力,我可以分配更多資源,或根據需要減少。但我可以復制容器。最好的是,復制的容器會保持相同的端點。
Brian Booden:所以你是將底層基準數據架構作為模板?你復制容器并在此基礎上擴展?
Alexander Ollman:是的。所有內容都擴展到Pod級別。雖然Pod會被復制,但Pod內的容器端點保持一致。
讓我展示一個例子。在Kubernetes環境中部署容器時,通過藍圖提供說明——通常是Helm圖表(Helm Chart)。大多數軟件供應商的云原生應用,無論是在AWS、GCP還是其他Kubernetes平臺上,通常都帶有Helm圖表。你可以在這里導入這些圖表,拖放它們,并指定命名空間(Namespace)。例如,我將它放入我的命名空間,并修改圖表以引用正確的容器。我將其命名為"虛擬助手"。
這是在Kubernetes中部署應用程序的典型過程。重要的是,這個應用程序——與其他應用一樣——代表了HPE在這領域收購的成果。它是經過精心設計的用戶體驗,旨在簡化操作。雖然在Kubernetes上部署應用程序確實有學習曲線,但大多數Helm圖表都是預打包的,只需少量調整就能與HPE AI Essentials中的連接器本地集成。
隨著平臺的持續發展,這些過程將被抽象為點擊式UI。很快,部署應用程序和LLM將變得像點擊幾下那樣簡單。例如,NVIDIA提供了他們的NeMo推理服務器(NeMo Inference Server, Nim)。這個設置不僅支持LLM,還支持嵌入模型(Embedding Models),這些模型將文本和圖像轉換為向量——這種格式非常適合LLM使用。隨著聯合工程努力的繼續,支持的模型目錄將不斷擴展。
現在我已經將端點和應用程序連接起來。讓我導入一些庫——這里有很多,因為我在這個Notebook中實驗了一些額外功能。例如,我計劃從S3存儲桶提取數據,如PDF文件,并創建向量數據庫(Vector Database)。不過,現在我要展示如何在這個Notebook環境中使用相同的端點。
這個Notebook是一個容器。我剛初始化的應用應該已經就緒。刷新后它會立即顯示。通過這個環境,我可以從LLM端點進行推理(Inference)。我確保Notebook內核在運行,更新Token以實現容器間通信,并將請求指向正確的模型端點。
這個過程使用了持久卷聲明(PVC, Persistent Volume Claim),這是一種與HPE Private Cloud AI中底層GreenLake for File相關聯的臨時存儲。訪問權限決定了哪些用戶可以共享文件并有效協作。例如,這些共享文件夾使團隊成員能夠訪問相同資源。
對于模型推理,NVIDIA的集成簡化了這一過程。他們與LangChain等開源工具的合作使單個對象實例能夠處理LLM的交互。例如,我們定義端點、模型和認證Token,通過API服務器發起請求。結果以JSON格式返回,然后解析為可用格式。
這個框架不僅局限于Notebook環境。例如,您可以開發一個支持實時拖放上傳功能的終端用戶應用程序。上傳的內容可以被向量化并進行嵌入,為LLM提供響應所需的上下文。這種被稱為RAG的方法通過從向量數據庫中檢索并整合相關數據,顯著提升了模型回答查詢的能力。
Andy Banta:在基礎設施方面,診斷能力和可審計性是至關重要的。盡管這對數據科學家很有吸引力,但管理者需要能夠有效監控并排除環境中的故障。
Alexander Ollman:在報告功能方面,HPE AI Essentials 提供了全面的資源管理視圖。管理員可以接收各類通知和日志。通過與 OpsRamp 的集成,我們進一步增強了基礎設施的可觀察性和報告能力。
Andy Banta:診斷能力是另一個需要關注的問題。當環境出現故障時,問題定位的難度如何?您的快速應用部署運行良好,但這種效果能否在整個技術棧中得到同樣的實現?
Edward Holden:為應對這些挑戰,我們已經為Private Cloud AI建立了卓越中心(CoE)。客戶可以通過單一支持聯系人獲取服務,避免了需要與多個供應商溝通的困擾。如果NVIDIA的NIM或其他組件出現問題,我們會直接與NVIDIA協作解決。卓越中心統一處理所有問題,確保支持服務的無縫銜接。
Andy Banta:VMware Cloud Foundation在其中擔任什么角色?
Edward Holden:它是控制節點的組成部分。私有云控制平面運行在虛擬機(VM)上,并與GreenLake平臺實現互聯。基礎設施充分利用了Private Cloud Business Edition的自動化功能,包括OneTouch升級功能,可用于補丁更新和基礎設施增強。這些操作都在后臺自動完成,大大簡化了客戶的使用體驗。
HPE Private Cloud AI產品是我們混合云愿景的集大成之作。我們不僅抽象化底層基礎設施(包括硬件和軟件),還將各個組件整合起來,提供統一的使用體驗。我們的目標是在與這些基礎設施協同工作的同時,保持對基礎設施及其相關數據的完全控制權。
關于將基礎設施與終端用戶抽象化的重要性,這值得我們深入探討。我們演示了如何使用部署在Private Cloud AI之上的HPE AI Essentials,以及它如何通過GreenLake Cloud平臺作為機架設備運行。GreenLake Cloud平臺,尤其是Private Cloud Enterprise商業版,能夠連接并自動配置整個機架系統。
我們的首席技術官和首席執行官Antonio Neri在今年早些時候的HPE Discover大會上,在拉斯維加斯Sphere現場承諾,只需三次點擊就能完成基礎設施的部署。在完成基礎設施搭建后,我們希望能夠抽象化MLOps工作流所需的各個組件。在我今天的第一個演講中,我強調了理解和重視這個過程中每個步驟的重要性。
在軟件層面,抽象化可以采取多種形式。我們希望確保不削弱那些已經在數據工程(Data Engineering)和數據科學(Data Science)領域使用數據和相關工具的專業人員的權限和自主性。雖然他們具備這樣的專業知識,但現在我們有了能夠自動完成所有工作的工具,這可能會使某些工作顯得多余。這就像是在沒有充分理解各個步驟的情況下使用快捷方案。
我會將其比作80年代的微波爐食譜——雖然這些食譜能快速完成烹飪,但成品的口感不一定理想。即便大部分繁重工作是由同樣的設備完成的,理解整個過程中的每個步驟仍然至關重要。
如前所述,我們希望在HPE Private Cloud AI產品中抽象化的底層基礎設施包括GPU加速計算、模型存儲(顯然,這些存儲需要具備高速度和足夠大的容量,以支持網絡中其他節點上的GPU)以及高速網絡。
我們需要通過虛擬化軟件層來訪問這些資源。直接連接這些資源可能比較耗時,因此如果能夠通過應用程序和管理功能進一步實現抽象化會更好。這正是我們希望通過HPE Private Cloud AI實現的目標:從基礎設施角度實現抽象化并簡化使用過程。
在HPE Private Cloud AI中,從軟件角度來看,我們能夠實現以下功能:借助HPE AI Essentials工具集,用戶和其他軟件供應商可以安裝、部署并創建自己的自動化方案,針對其組織的特定數據架構進行定制。這使得自動化成為可能,消除了對數據源互連性的顧慮,并能自動檢索、收集和選擇特定用例的數據。我們正在邁向這樣一個世界:未來某天,基于我們平臺開發的軟件應用程序可以通過簡單的提示來執行任務。
我們現在已經處于這樣的世界,而且距離這一目標可能已經不遠了。無論是第三方供應商提供的軟件,還是基于組織特定數據特征的內部開發項目,我們都有相應的平臺來部署和構建。
我們與NVIDIA的合作伙伴關系也體現了這一點。我們致力于將大型語言模型(LLM)的開發和部署抽象化,這不僅包括基于文本的模型,還包括嵌入模型和代碼生成模型。NVIDIA與我們的合作進展順利,共同致力于使這些組件能夠擴展到企業級別。NVIDIA的核心優勢一直在于與庫和框架的協同,特別是在其GPU和硬件領域。目前,他們正在向軟件領域擴展。眾所周知,在基礎設施層面擴展軟件并非易事。幸運的是,他們選擇了最佳的合作伙伴。
通過這個應用程序,我們可以將所有這些內容整合起來,借助HPE Private Cloud推出的解決方案加速器(Solution Accelerators)來實現流程自動化。通過解決方案加速器,我可以利用已連接的數據源,選擇特定的文件或表格,選擇大型語言模型或其他生成模型,并將它們預配置且與終端用戶應用程序預先連接。所有這些都可以通過一次點擊來部署。這就是HPE Private Cloud AI即將推出的解決方案加速器所帶來的功能。
雖然目前的設計可能會有所調整,因為我們正在實施新的前端開發標準,但統一性正在不斷加強,這對于我們這樣規模的企業來說確實充滿挑戰。這是我們計劃在今年年底前正式發布的目標。
我們的目標是抽象化流程,同時保持您對所有底層組件的操作能力。您仍然可以獲取數據、創建向量數據庫,并自動化構建一個利用這些數據的用戶界面。這確實可以實現,但不僅僅是簡單地拖放PDF文件。這還涉及管理包含數百萬行的表格,或處理成千上萬的文件,并從中選擇適用于特定用例的內容。我們希望能夠將這一工作流程擴展到企業級別,同時保持簡單直觀的用戶體驗。
參考資料:
- Ollman, A. (2024, October 2). A Step-by-Step Guide to Build Robust AI with Hewlett Packard Enterprise [Video]. YouTube. https://www.youtube.com/watch?v=1FglwbpS_Ys
- Ollman, A. (2024, October 2). Building a Generative AI Foundation with HPE [Video]. YouTube. https://www.youtube.com/watch?v=AIG4-O9ZVRY
- Ollman, A. (2024, October 2). Streamline AI Projects with Infrastructure Abstraction from HPE [Video]. YouTube. https://www.youtube.com/watch?v=5WXEBdGFDQI
本文轉載自 ??Andy730??,作者: 常華Andy
