AI Agent重塑微服務治理

作者：百度Geek說 2024-12-10 09:15:39

商業產品包含效果廣告（搜索廣告，信息流廣告）和展示廣告（品牌廣告，開屏廣告）兩大類廣告產品，以及基木魚和觀星盤、電商等營銷工具。為了保障復雜系統的穩定性，業務同學需投入大量人力運維微服務，從而保證業務功能快速交付和線上高穩定性。

1.項目背景

傳統場景下，軟件的研發主要依靠人，需求溝通、開發、測試、部署等階段都需要大量人力投入。大模型優秀的代碼生成和一定的思維鏈推理能力，能夠激發微服務研發、運維等環節“智能涌現”，重塑軟件研發全生命周期。

商業產品包含效果廣告（搜索廣告，信息流廣告）和展示廣告（品牌廣告，開屏廣告）兩大類廣告產品，以及基木魚和觀星盤、電商等營銷工具。為了保障復雜系統的穩定性，業務同學需投入大量人力運維微服務，從而保證業務功能快速交付和線上高穩定性。這些工作包含兩類：

常規流程操作：日常上線部署、調整部署和發布 API、配置修改、路由參數更改等常規操作。
SRE架構優化：技術棧持續升級，針對線上報警等穩定性問題，進行深層次的根因定位和故障處理、架構優化。

平臺工程團隊面向商業產品打造的 Jarvis 平臺，提供了一整套的運維工具包括自動化部署和微服務治理分析能力。但是這些治理工具存在以下問題：

圖片

組合操作復雜：完成單一目的需要大量的組合操作，這些操作入口深（隱藏在重重菜單中），鏈路長。
強依賴人工經驗：對于根因定位和故障處理、架構優化， Jarvis 平臺開發了微服務治理、性能分析、自動化監控、調用鏈分析等高階能力。但是這些工具使用門欄較高，定位問題嚴重依賴于人工經驗。如果對該業務應用無運維經驗，則需要耗費大量時間去定位止損和優化架構。

圖片

為了提升商業產品維護的效率問題，Jarvis 平臺使用 AI 原生應用思維來全新重塑產品形態，革命性提升業務研發運維效率，基于多智能體架構將專家經驗內化，大幅降低使用門檻，顯著提升微服務維護的效率（包括故障處理和根因定位、架構優化、部署操作等）。

主要有兩個關鍵環節：

全流程對話式交互：用戶依靠自然語言發出指令，多輪持續對話完成一項完整的升級操作，比如灰度發布、配置限流熔斷、流量錄制和回放等復雜操作。
LLM 推理診斷處理：基于定位問題的經驗，依靠LLM的推理能力，進行根因分析，通過智能診斷、報警等機制來驅動系統故障的高效處理，實現人工運維經驗的可復制性。

2.效果演示

應用使用JarvisBot 升級到jdk17（全流程對話式交互）

用戶要求升級 JDK17；
DirectorAgent解析SOP規劃執行路徑，組裝CoderAgent、OpsAgent解決該需求；
CoderAgent自動升級代碼并發出CR；代碼負責人 CR 合入；
OpsAgent部署上線，并將錄制流量回放保證服務正常，承接線上流量；

基于思維鏈推理的報警處理（LLM 推理診斷處理）

用戶要求診斷錯誤日志報警；
DirectorAgent解析 SOP 規劃執行路徑，組裝DiagnosisAgent、OpsAgent解決該問題；
DiagnosisAgent拉取 Metrics 日志和 Tracing 日志定位到問題實例，提出”屏蔽實例“優化建議；
用戶確認后，OpsAgent執行優化止損操作；

3.基于SOP的多智能體協作

3.1 業界探索

圖片

單個AI智能體=LLM+記憶+規劃+工具等，參考述上OpenAI理論基礎。

多智能體則需要由多個Agent依靠既定SOP互相進行交流，從而保證智能體能夠正確的合力完成一個復雜的長程任務。智能體的關鍵在于SOP，是不同工種技能的關鍵，能讓每一個智能體扮演一個特定角色。

SOP指的是Standard Operating Procedure，即標準操作程序，它提供了執行特定任務所需涉及的角色分工和詳細操作步驟，以確保在不同情況下都能保持作業結果的準確性和高效性。SOP 在軟件開發、系統維護和團隊協作中起著重要作用，有助于確保開發人員遵循最佳實踐、減少錯誤和提供工作效率。

為了解決項目開篇提到用戶需求，系統為了快速產出大量的能力，因此經過多次迭代，有了一系列演進：

△SOP架構演進

階段一：多智能體協作。Agent 之間需要相互調用才能完成復雜的對話目標。但是Agent 的工作存在大量重復，比如幾乎所有智能體都需要調用底層的 API agent進行數據查詢，診斷的智能體其實也需要大量的優化操作。智能體直接的邊界非常不清晰，交互的方式也比較多樣，有通過自然語言，有通過直接調用的，非常混亂。

圖片

階段二：智能體協作SOP 標準化。通過標準操作程序（SOPs）編碼作為智能體Prompt，指導大模型按照結構化流程工作并協調智能體各個環節，允許具有領域專長的智能體驗證輸出并減少復合錯誤，有效避免大模型的幻覺問題。SOPs 總結人工操作流程經驗，從而讓 agent 的職責和產出結果標準化、agent 間的協作完全符合要求。

3.2 SOP格式定義

問題場景	SOP
自然語言描述的場景	自然語言描述的操作步驟

舉例：

問題場景	SOP
錯誤日志報警診斷分析	1：信息收集，收集要診斷排查的所有相關數據和信息 2：分析診斷，分析診斷具體的原因 3：止損建議，根據診斷原因給出止損建議
信息收集	1. [TOOL]查詢錯誤信息詳情，獲取結果列表中第一條數據traceId, stack_error_message, localBns 2. [TOOL]查詢錯誤日志信息，獲取traceId相關聯的所有日志信息
分析診斷	1. [TOOL]分析錯誤日志信息，根據日志信息總結錯誤根因 2. [TOOL]分析錯誤信息詳情，根據錯誤信息的描述和stack_error_message分析錯誤原因
止損	1. [TOOL]查詢止損建議，根據診斷原因查詢止損建議