Kubernetes +大模型：CAST AI解決成本難題

作者：岱軍 2024-12-02 11:45:48

使用AI Enabler，DevOps團隊可以通過創建比較LLM、提供商和響應的場景來探索其選項，測試路由行為并可視化路由決策，以及配置和調整路由參數。

Cast AI 利用其在 Kubernetes 自動化方面的專業知識，使 DevOps 和 AIOps 團隊能夠找到性能和成本最佳的 AI 模型。

譯自Kubernetes + LLMs: Cast AI Solves the Cost Puzzle，作者 Jeffrey Burt。

幾年前，Cast AI推出了一個自動化平臺，用于管理Kubernetes的運營和成本。鑒于 Kubernetes 和 AI 之間的共生關系，這家成立五年的初創公司也幫助組織及其開發人員管理 AI 運營成本也就不足為奇了。

這家位于佛羅里達州邁阿密的公司并非 AI 新手；其 Kubernetes 平臺由機器學習算法驅動。生成式 AI 的快速興起為 Cast AI 開辟了另一條途徑。該供應商在四月推出了其 AI 優化器服務，該服務通過與任何與 OpenAI 兼容的 API 端點集成并識別 LLM（商業和開源）來自動降低部署大型語言模型 (LLM)的成本，從而為最低的推理成本提供最佳性能。

Cast AI 還擁有其 Playground 交互式測試工具，允許開發人員比較 LLM 的性能和成本，然后自定義配置，而無需調整代碼。

在最近的KubeCon + CloudNative 北美大會上，Cast AI 推出了 AI Enabler，這是 Playground 的產品化版本，它利用供應商的 Kubernetes 基礎設施優化能力將來自組織和 DevOps 人員的查詢智能地路由到針對他們正在運行的任務的最佳、最具成本效益的 LLM（再次強調，商業或開源）。

圖片

Cast AI 的聯合創始人兼首席產品官告訴 The New Stack，使用該工具的初始名稱，“Playground 使團隊能夠揭開 LLM 性能和成本的神秘面紗。它不再是猜測。用戶可以直接對模型進行基準測試，了解它們的權衡，并為其特定工作負載做出數據驅動的決策，所有這些都無需編寫一行代碼。”

成本高昂的 LLMs

Cast AI 的各種工具——包括 AI Optimizer 和現在的 AI Enabler（之前的 Playground）——旨在幫助開發人員掌握生成式 AI 領域，該領域的 LLM 數量及其運行成本正在迅速增長。在一篇博文中，該公司產品營銷總監指出，OpenAI 的 LLM 模型的定價頁面有 10 頁長，至少有 20 種不同的模型，用于不同的用例和定價模型。

鑒于此，開發人員和AIOps團隊由于時間緊迫而難以確定哪個模型最適合他們的特定需求，這通常是一項手動工作。然后是運行 LLM 的成本，這需要昂貴的組件，如 Nvidia GPU，并消耗大量能源。根據國際能源署的說法，ChatGPT 查詢消耗的電力是谷歌搜索的 10 倍。

成本可能會增加。一家成立兩年的 AI 咨詢公司的創始人在一篇博文中寫道，圍繞 LLM 的成本增長速度有多快。指出，雖然自兩年前 ChatGPT 發布以來，LLM 一直是生成式 AI 的基礎，但成本一直是組織實現其潛力的障礙。

“將 LLM 集成到您的應用程序中的費用范圍從按需使用情況的幾美分到在云環境中托管單個 LLM 實例的每月 20,000 美元以上不等，” 寫道。“此外，還與微調、訓練、向量搜索和擴展相關的巨額成本。”

控制成本

Cast AI 的表示，控制這些成本可以使 DevOps 團隊充分利用 LLM 的功能。他寫道：“一些團隊可能沒有意識到，使用默認的LLM或依賴單一提供商可能并非所有用例的最佳選擇。”“結果，他們經常使用比必要更資源密集且昂貴的模型。他們沒有探索其他選項或根據特定需求定制模型，錯過了更高效、更經濟的解決方案。這可能導致不必要的支出和資源利用效率低下。”

DevOps和MLOps團隊負責構建和維護生成式AI工作負載的基礎設施，但他們無法透明地了解計算資源、API調用或數據使用的成本，而轉向云也無濟于事，因為需要考慮數百個具有不同配置、性能和定價的計算實例。Radhakrishnan表示，自動化是關鍵。

儀表板和Playground

AI Enabler包含一個用于監控成本的儀表板，并創建一個報告，比較使用默認LLM與利用其他模型的支出。該儀表板匯總來自一系列LLM提供商的數據，以更清晰地了解每個LLM的成本。該工具還可以自動選擇最佳LLM，無需額外配置。

圖片

他寫道：“LLM代理智能地選擇最優的LLM模型來處理用戶查詢，確保組織以最低的成本獲得最佳性能。”“這種方法通過選擇和執行具有較低推理成本的優化LLM來實現最大限度的節省。”

這與該供應商的AI Enabler非常契合，AI Enabler比較LLM并創建基準，開發人員可以使用這些基準來開發最適合其需求的配置，并做出更好的決策，以優化最適合性能和成本的LLM。

圖片

使用AI Enabler，DevOps團隊可以通過創建比較LLM、提供商和響應的場景來探索其選項，測試路由行為并可視化路由決策，以及配置和調整路由參數。

Gil說：“借助Cast AI Playground，我們將控制權交還給企業。”“通過允許團隊并排比較LLM的性能和成本，我們正在幫助他們釋放AI的全部潛力，同時確保每一美元都花得其所。”

在Kubernetes中遷移工作負載

在展會上，Cast AI還推出了其商業支持的容器實時遷移功能，該功能能夠自動且不間斷地遷移有狀態和不可中斷的工作負載——例如MySQL、PostgreSQL或MongoDB等NoSQL數據庫以及AI應用程序——在Kubernetes中。該工具將使組織能夠確保持續運行時間，創建更高效的操作并降低基礎設施成本。

Radhakrishnan寫道：“有狀態的工作負載不能簡單地停止和重新啟動，而不會冒數據丟失或中斷的風險。”“這就是為什么Kubernetes最初簡化所有工作負載基礎設施的承諾未能滿足復雜、數據驅動型應用程序的需求。”

Cast AI正在將其新功能與其他自動化工具集成，包括Bin-Packing和Eviction、集群和節點重新平衡、Spot回退、Spot中斷ML預測和Spot實例價格漂移重新平衡。

他寫道：“運行資源密集型有狀態應用程序的組織無法承受停機時間。”“由于沒有廣泛采用的商業解決方案可以將這些敏感的工作負載遷移到具有成本效益的資源，因此它們最終會在利用率不足且昂貴的節點上運行。”

借助容器實時遷移，組織可以自動將這些工作負載遷移到更少的優化節點中。這確保了資源的最大利用率以及最適合其需求的實例的選擇，所有這些都降低了成本。

責任編輯：武曉燕來源：云云眾生s

AI DevOps 場景

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Kubernetes +大模型：CAST AI解決成本難題

成本高昂的 LLMs

控制成本

儀表板和Playground

在Kubernetes中遷移工作負載