我們一起聊聊智能體的基礎(chǔ)架構(gòu)
2023年下半年,智能體這個(gè)概念開始隨著AI的突進(jìn)式發(fā)展而被很多人關(guān)注起來。
到了2024年,大模型的能力進(jìn)一步增強(qiáng),為智能體快速發(fā)展提供了底層能力支撐。
隨著2025年DeepSeek的爆火,智能體在各行各業(yè)的落地應(yīng)用案例開始明顯增加。
大家已經(jīng)不再滿足于單一功能的智能體,而是開始追求通用智能體甚至AIGC的能力,Manus是這個(gè)趨勢下的一個(gè)典型案例,除此之外還有字節(jié)的扣子空間,以及百度的心響APP。
回看過去十年移動互聯(lián)網(wǎng)的爆發(fā),支撐移動互聯(lián)網(wǎng)的土壤,其實(shí)是3G、4G通信網(wǎng)絡(luò)的支撐,以及智能手機(jī)行業(yè)的蓬勃發(fā)展。從中我們不難得出一個(gè)結(jié)論:軟件生態(tài)要想發(fā)展得足夠龐大,需要底層硬件和基礎(chǔ)設(shè)施的支撐。
在AI領(lǐng)域,這個(gè)論斷依然成立,這也是寫這篇文章的原因:智能體(甚至是AIGC)的發(fā)展甚至構(gòu)建生態(tài),背后需要的基礎(chǔ)設(shè)施建設(shè)是重中之重。Agent Infra是Agent落地的關(guān)鍵,因?yàn)樗w了Agent從開發(fā)到部署的完整生命周期。
從我查閱的很多資料來看,目前在Agent Infra層面,大致可以劃分為如下四個(gè)領(lǐng)域,分別是:
- Environment:提供Agent開發(fā)和運(yùn)行環(huán)境,相當(dāng)于給了Agent一臺可自行操作的計(jì)算機(jī)。
- Context:為Agent有效運(yùn)行提供所需的信息,包括任務(wù)相關(guān)的背景知識和工具的使用方法。
- Tools:使Agent能便捷調(diào)用和協(xié)作的各類工具,包括各種類型的插件,以實(shí)現(xiàn)多樣化的任務(wù)。
- Agent Security:以Agent-native的方式保障Agent的行為與數(shù)據(jù)在執(zhí)行過程中的安全與合規(guī)。
一、Environment
Environment,即我們所熟知的運(yùn)行環(huán)境(操作系統(tǒng)和服務(wù)部署運(yùn)行容器),它為Agent提供了開發(fā)和部署環(huán)境,可以讓Agent更好地完成端到端的任務(wù)。目前在AI領(lǐng)域,比較突出的路徑有兩種,分別是Sandbox和Browser:
1、Sandbox是一種安全機(jī)制,為執(zhí)行中的程序提供隔離環(huán)境。傳統(tǒng)的虛擬機(jī)并不能很好地滿足Agent需求,因?yàn)锳gent對虛擬機(jī)的性能提出了更高的要求,比如需要更高的隔離性、更快的啟動速度、更強(qiáng)的穩(wěn)定性,以及具備一定的AI性能。
2、瀏覽器是Agent最重要的工作環(huán)境之一,瀏覽并操縱網(wǎng)頁的能力也將成為Agent的核心能力之一。Browser Infra賦予Agent的能力大致可以分為兩類:1-讓Agent可以大規(guī)模瀏覽網(wǎng)頁;2-使Agent可以操縱網(wǎng)頁。
最典型的案例就是Manus,它的運(yùn)行環(huán)境主要基于Linux Sandbox,借助無頭瀏覽器來完成任務(wù)。
二、Context
目前無論是ChatBot還是Agent,都需要人主動描述需求(提示詞),但信息幻覺問題是困擾人和AI協(xié)作的最大挑戰(zhàn)。除此之外,大模型、智能體之間的協(xié)作交互問題,也是另一大挑戰(zhàn)。
1、當(dāng)下最有效的緩解AI信息幻覺的方法就是RAG,因此,RAG方法也可以視作Agent Infra領(lǐng)域很重要的一個(gè)組成部分。目前,RAG已成為一種共識性的技術(shù),并在各類應(yīng)用場景廣泛使用。
Agentic RAG系統(tǒng)能夠持續(xù)分析Context和用戶意圖,自主從多種來源檢索并整合相關(guān)信息,使Agent可以更好地完成任務(wù)。
2、大模型和智能體之間,系統(tǒng)內(nèi)部和外部之間的協(xié)作調(diào)用,目前已經(jīng)出現(xiàn)了一個(gè)標(biāo)準(zhǔn)化的解決方案,即MCP。MCP是Anthropic發(fā)布的一個(gè)開放式協(xié)議,重新定義了Agent調(diào)用外部工具、獲取數(shù)據(jù)以及與各類服務(wù)交互的方式。
三、Tools
Tools的價(jià)值不言而喻,可以讓Agent能夠便捷調(diào)用各類工具,實(shí)現(xiàn)多樣化的任務(wù)。隨著Agent交互復(fù)雜度的不斷提升,相關(guān)的Infra使工具層正在快速擴(kuò)張。在Tools Infra層面,較為通用的有如下三個(gè)方向的工具:
1、搜索:搜索是Agent獲取外部信息的重要途徑。相比我們手動利用搜索引擎去檢索信息,Agent會進(jìn)行更頻繁、更復(fù)雜的搜索,且傳統(tǒng)搜索引擎無法滿足Agent的搜索需求。因此,Tools Infra搜索領(lǐng)域需要解決兩大難題:1-更快且低成本的信息檢索;2-更智能的搜索和爬蟲架構(gòu)(解決人為造成的信息閉塞問題)。
2、支付:如前面為大家介紹的AI落地核心因素所說,確定性的場景是AI落地的前置條件,而金融、法律等領(lǐng)域天然具備這樣的條件。因此,金融領(lǐng)域未來會成為Agent落地的重要場景,而金融領(lǐng)域最重要的屬性就是Finance & Payment,即資管和支付。
3、工作流:工作流大家并不陌生,在IT軟件開發(fā)領(lǐng)域,工作流的概念其實(shí)大家日常都在實(shí)踐,最典型的就是CICD持續(xù)交付流水線。在AI領(lǐng)域,工作流也是很重要的一項(xiàng)基礎(chǔ)設(shè)施,特別是對于一些很復(fù)雜的任務(wù),讓AI自定義工作流來進(jìn)行決策和執(zhí)行任務(wù),最終的結(jié)果很難保證符合預(yù)期。
當(dāng)然,工作流也分為前后端,比如Manus的在線可視化任務(wù)執(zhí)行,其實(shí)就是Frontend Workflow(前端工作流);像字節(jié)扣子空間的專家Agent,其實(shí)背后也需要Backend Workflow(后端工作流)來支撐。
四、Agent Security
隨著Agent能力邊界的拓展,安全性上的要求也在同步提升,最核心的就是信息安全。因?yàn)榇竽P偷挠?xùn)練需要投入大量的數(shù)據(jù),且AI本身會檢索互聯(lián)網(wǎng)上大量的數(shù)據(jù)并輸出結(jié)果,我們需要保證自己的敏感信息不被泄漏,也希望AI給出的結(jié)果符合信息安全法規(guī)。
我們需要對Agent進(jìn)行身份驗(yàn)證,并保證Agent的每個(gè)意圖和行動都是安全的。此外,Agent每次數(shù)據(jù)交互都需要動態(tài)校驗(yàn),這也對數(shù)據(jù)安全提出了更高的要求。不過安全領(lǐng)域一向遵循“需求驅(qū)動”的邏輯,即先有成熟的下游產(chǎn)品設(shè)計(jì),再有對應(yīng)的安全問題與解決方案。安全問題,先天的稟賦就是后知后覺的后來者。