智能體的五大商業用例
AI的下一代已經到來,它具有自主性。智能體與聊天機器人由相同的AI系統提供支持,但可以獨立行動、協作以實現更大的目標,并接管整個業務流程,這項技術相對較新,但所有主要參與者都已經加入。
去年10月,微軟宣布包括標準銀行、路透社、Virgin Money和蘇黎世保險在內的10萬家組織正在使用Copilot Studio,這一數字是幾個月前的兩倍。Copilot Studio能夠使企業構建自主智能體,以及其他將CRM系統、HR系統和其他企業平臺連接到Copilot的智能體。
在整個2024年底,微軟繼續有目的地擴展其智能體產品,推出了針對特定用例的定制智能體,然后在11月,該公司推出了Azure AI Agent Service,這是一項完全托管的服務,可讓企業快速構建、部署和擴展智能體。而在AWS上,自2023年以來,Amazon Bedrock Agents就已可用,但在12月,亞馬遜添加了多智能體協作功能。
主要的企業軟件供應商也在進入智能體領域。Salesforce在10月推出了Agentforce,隨后幾個月推出了Agentforce 2.0。該升級包括一個預建技能和工作流程集成的庫、對Slack的支持以及更強的推理能力。
在此之前,ServiceNow于9月宣布了其AI Agents產品,11月推出了針對客戶服務管理和IT服務管理的首批用例。
還有一些純粹的智能體AI平臺提供商,如CrewAI,以及智能自動化提供商,如UiPath,而這僅僅是開始,在1月初發布的一份報告中,Accenture預測,到2030年,智能體將取代人類,成為大多數企業系統的主要用戶。在1月KPMG對100家大型企業高管的調查中,12%的公司已經部署了智能體,37%的公司處于試點階段,另有51%的公司正在探索其使用,但并非一切順利,因為通用AI本身還遠非完美。
“存在幻覺和偏見的風險,”Accenture的首席負責AI官Arnab Chakraborty說,“因此,這不僅僅關乎用例,還關乎設置防護欄。”智能體也很難構建,且大規模部署成本高昂。
盡管如此,企業已經在報告部署智能體用于多個用例的成功案例。
1. 軟件開發和IT
去年3月,Cognition發布了Devin,號稱是世界上第一個AI軟件工程師。當時,最好的AI在SWE-bench(一個旨在測試AI解決真實世界編碼問題能力的挑戰性基準測試)上的得分不能超過5%。Devin的得分接近14%。到了8月,智能體AI系統的得分接近40%,而今天,它們已經突破了60%的里程碑。
與此同時,去年12月,OpenAI的新O3模型(一個尚未向公眾公開的智能體模型)在同一測試上得了72%。根據Capgemini于2024年中發布的一項調查,60%的大型公司高管表示,智能體將在三到五年內處理企業中的大部分編碼工作。
但已經有一些特定于軟件開發生命周期的工作崗位準備好借助智能體。
“我們開發了自己的自主式AI用于代碼管理,”Mitre的首席技術官Charles Clancy說,“似乎效果最好的最佳用例是在存儲庫管理中,在那里,它將遍歷并進行代碼存儲庫的錯誤修復。”
例如,他說,10年前的源代碼可能無法在現代計算機上正確編譯。
“智能體將下載它,嘗試構建它,如果它無法運行,它將在必要時修復構建腳本和代碼,將代碼檢查回存儲庫,并標記它是由智能體完成的。”他說。
Clancy補充說,Mitre不得不創建自己的系統,因為大多數現有工具使用供應商管理的云基礎設施進行AI推理部分。“出于安全原因,我們不能這樣做。”他說。
他還說,還有一個單獨的研究項目正在研究50年前的主機代碼,并使用AI提取業務邏輯,并為其重寫云原生框架。
“我們的目標是在所有政府組織中現代化復雜且關鍵的任務舊版IT系統。”他說。
這些系統中有數百萬行代碼,是用COBOL、MUMPS,甚至是與原始硬件綁定的匯編語言編寫的。“我們正在開發自己的AI模型,以定制改進稀有平臺上的代碼理解。”他補充道。
Mitre還在一個安全的、由Mitre管理的云環境中使用AWS Bedrock測試了數十個商業AI模型。到目前為止,已經處理了50多萬行代碼,但由于幻覺和其他質量問題,仍然需要人工監督。
“我們還發現,自主式AI可以與為軟件工程師開發的工具一起工作,從而顯著提高驗證和編譯代碼的成功率,”Clancy說。這提供了潛在途徑來訓練新的AI,以減少對監督的需求。“即使考慮到必要的人工監督,這個過程也在每天都在加快。”
去年12月,Langbase發布了一份智能體狀態報告,基于來自高管和技術專業人士的3400多份回復。智能體的首要用例是軟件開發,有87%的受訪者表示正在使用。此外,48%的人表示他們正在IT和運營中使用大型語言模型(LLM)。
2. 自動化和生產率
由于智能體可以接觸許多系統,工作流程自動化和生產率成為企業的首要用例。根據KPMG的報告,行政職責是智能體的主要用例,有60%的受訪者表示正在使用。以全球律所Avantia為例,該律所使用商業和開源通用AI為其智能體提供支持。“我們領域的關鍵挑戰是,有數百項任務可能無法很好地自動化,”首席技術官Paul Gaskell說,“而且它們不太適合SaaS解決方案。有太多的單獨任務分散在太多的地方。”
現在,有了微軟,智能體可以作為伴侶坐在Word或Outlook中,隨時準備執行任務。
“如果客戶要求我們執行交易或工作流程,并且Outlook或Word是打開的,智能體可以訪問所有公司數據,”他說。“而且,因為這些是我們的律師正在處理的文檔,我們有他們通常做什么的歷史記錄。”
從業務角度來看,律師可以更快地完成合同簽訂流程、更快地回應客戶、并以比其他人更快的速度進行交易。
Gaskell預計,到2025年中,利潤率將提高多達45%。“我們已經對已經完成的工作進行了時間和動作研究,”他說,“我很難想象這不會成為專業服務業的未來。”
Gaskell說,他的公司對LLM持不可知論態度,這意味著智能體可以根據哪個最適合,由不同的LLM提供支持。這包括一些主要的開源模型,他說,因為它們提供了隱私、成本優勢和更低的延遲。智能體目前運行在超大規模云服務商的服務器上,但該公司正在考慮投資自己的GPU,并在托管設施中租用空間,以進一步降低成本。
另一家使用智能體來自動化業務流程的公司是SS&C,一家金融服務和醫療技術公司。
“我們從2萬名客戶那里收到各種格式的文檔,”該公司自動化高級常務董事Brian Halpin說。這些可能是PDF、數字表格、電子郵件,關鍵信息可能位于任何位置,并以不同的方式呈現。這加起來每月需要處理數百萬份文檔。“理解文檔的上下文是至關重要的,”他補充道,而過去,這一直是阻礙自動化的最大障礙,而通用AI可以提供幫助。
“因此,今天,我們有20個圍繞文檔使用智能體的生產用例,”Halpin說,“這很有用,也很強大。”數據保存在私有云中以確保安全,LLM也在內部托管。SS&C使用Meta的Llama以及其他模型,Halpin說。
該系統于2024年中投入生產,并在去年11月處理了5萬份文檔。“我們將繼續增加這一數量。”他說。
他說,在傳統自動化中,人類幾乎需要查看每份文檔。有了AI,這個比例被顛倒了。例如,在貸款文件類型中,自動化的比例達到90%左右,只有少數文件需要人工審查。
3. 客戶服務和支持
在鄧白氏,智能體幫助客戶與該公司收集的關于世界上5000萬家企業的信息互動。
“我們為95%的財富500強企業提供服務,他們使用我們的數據來做出一些最重要的決策,”該公司的首席數據和分析官Gary Kotovets說。這包括信貸決策和供應鏈決策,他說。數據還用于銷售和營銷。
“對我們來說,智能體對于與我們的數據互動至關重要,”他說。“它們允許客戶提出與公司相關的問題,智能體將確保數據是與該公司最相關的準確信息。”這并不總是那么容易,因為許多公司的名稱和地址相似。“這就是智能體發揮作用的地方。我們的智能體說,‘讓我確保這家公司是他們正在詢問的實際公司。’它們能夠理解所提出的問題。”
4. 內容創作
撰寫文本和創建圖像是通用AI最早的兩個流行用例。現在,智能體可以加速內容創作過程。根據Langbase的調查,文本生成和摘要是第二受歡迎的用例,有59%的受訪者表示正在使用,其次是營銷和傳播,有50%的受訪者表示正在使用。安永在其第三方風險管理服務中使用智能體。
安永的負責人辛克萊·舒勒表示:“你們聘請我們來評估你們引入的一些供應商。”“我們的風險評估人員會完成這項工作,在一個供應商身上花費多達 50 個小時,仔細研究合同和其他文件,以制作出一份報告,指出我們觀察到的風險。”
過去通常都是這樣做的,直到GenAI的出現。
“現在我們可以把所有合同和公開文件輸入給人工智能,它可以在幾分鐘內就生成一份報告,而不是過去需要的幾天,并且報告內容極為準確詳細。”他表示。然后人類專家會對這些報告進行完善。“人工智能加上人類專業知識,在質量上是一個巨大的提升。”他說。
現在,隨著自主式AI的出現,這個過程又在發生變化。
“我們將發布這個過程的智能體驅動版本,實現對供應商的持續監控,這在以前是不可能的。”他說。
這是公司在考慮 AI 智能體時經常忽視的一點,他表示。“很多人把關注點放在了優化用例上,”他說。“但真正的價值在于市場的拓展,以及收入機會的增加。”
5. 人力資源和員工支持
智能體的另一個相對低風險、高價值的應用場景是回答員工問題,并代為處理簡單任務。事實上,IBM 在 2024 年 1 月進行的一項關于通用人工智能發展的調查中得出結論,43% 的公司使用 AI 智能體來進行人力資源管理。
例如,全球數據服務公司 Indicium 從 2024 年年中開始部署智能體,當時這項技術開始成熟。
“你會開始看到現成的應用程序——既有開源的,也有專有的——這讓構建智能體變得更加容易。”該公司的首席數據官丹尼爾·阿萬奇尼表示。
他表示,這些智能體被用來讓 HR 的工作更加輕松,包括內部知識檢索、標記、記錄以及其他業務流程。每個智能體就像一個微服務,專門負責一件事情。“它們在一個多智能體系統中相互通信,”他說。這些基于提示的對話可能會變得很奇怪。棘手的是,通用人工智能可能會產生幻覺等問題。“因此,我們需要對模型進行大量調整,以防止它們做出錯誤行為或訪問錯誤信息。”他說。
從積極的一面來看,AI 智能體可以自主處理很多問題,因此在這方面具有商業價值。“我們還發現了未正確記錄的內容,這有助于我們改進流程。”他補充道。
信任但要驗證
安全性是智能體開發自始至終的基石。事實上,最早的智能體框架之一是 BabyAGI,于 2023 年年初發布,它將 ChatGPT 與 Pinecone 向量數據庫(用于記憶)和 LangChain(用于編排)相結合。創建它的開發者開玩笑地要求它制造盡可能多的回形針——這是對一種假設的由失控 AI 引發的回形針末日的引用——該系統立即認識到了潛在問題,并首先為自己生成了一個安全協議,但大多數智能體型 AI 開發者并不愿意對 AI 如此信任。
在 LangChain 2023 年 11 月對 1300 多名專業人士進行的調查中,55% 的受訪者表示,追蹤和可觀察性工具是智能體不可或缺的控件,有助于他們了解智能體的行為和性能。此外,44% 的受訪者設置了防護欄,40% 使用了離線評估。
“AI 模型存在風險,會犯各種各樣的錯誤,”瑞典烏默奧大學計算機科學系和技術政策理事會主席弗吉尼亞·迪格努姆表示。
但她表示,可以創建系統來捕捉錯誤,因此,如果智能體無法完成任務,它會承認失敗,而不是嘗試編造內容。
“這一領域有很多研究,并且理論上已經有了成果,”她說。“但據我所知,目前還沒有合適的智能體界面,而且,一旦開始開發這些系統,就必須應對由此產生的后果,以及如果其中一個系統出錯會發生什么。”
這意味著需要制定治理和監管措施。智能體框架不僅需要處理 AI 可能犯錯的實際和業務影響,還需要處理法律影響。
“如果這些問題得不到解決,我認為企業智能體就不會有多大用處。”她說。
然后,企業在部署 AI 智能體時還需要應對另一個風險:智能體實現的 AI 驅動自動化的大規模可能帶來的顛覆和負面結果。Wipro 的副總裁兼全球 AI 主管普什帕·拉馬錢德蘭表示,在部署這些系統時,變革管理過程非常重要。“這是我認為很多客戶需要花費更多時間的地方,”他說。而前期多花些時間意味著公司從長遠來看能走得更遠。“那些認真考慮變革管理過程的公司能夠更快地實現規模擴張。”他說。