什么是AI Agent,以及怎么實現AI Agent? 原創
最近發現有些人還不了解什么是AI Agent,或者是看了Agent的概念,但還是不知道什么是AI Agent,今天我們就來詳細介紹一下什么是AI Agent。
什么是AI Agent?
這篇關于Agent的文章,即是對AI Agent的介紹,也是為了記錄自己對AI Agent的理解。
網上的介紹說,AI Agent中文翻譯叫智能體,是一種能夠感知環境,進行決策和執行動作的智能實體。
看了以上的定義,可能很多人還是覺得一頭霧水,這都是什么玩意,能不能說點人能看懂的東西。
那下面我們就用大白話介紹AI Agent,大家都說大模型的功能很強大,能回答問題,繪畫等等;但如果你想讓大模型去工地搬磚怎么辦?它又沒手沒腳,而且也不知道該往哪搬啊。
難道因為這個原因,就不讓大模型去工地搬磚了嗎?這顯然是不可能的,發展科技的目的就是為了人類服務的;所以就需要一種讓大模型能夠搬磚的方法。當然,類似的還有讓大模型去幫忙處理工作,去控制生產等等。
所以,簡單來說所謂的AI Agent就是一種讓大模型能夠與現實世界接觸的方法,讓大模型能夠去替代人類處理一些工作與問題,這就是AI Agent。
那么,說起來簡單Agent就是讓大模型去干活;但回到技術上來看,大模型沒有手腳,你想讓它干活它就能干活了?這顯然是不可能的,因此就需要一種方式——函數調用。
因為目前是信息時代,各種企業生產都開始慢慢接入工業互聯網中;在以前干活時需要員工在流水線上操作,而現在只需要讓員工點點鼠標即可。
而這一切都是通過API的方式進行的,因此只需要給大模型設計一個能夠使用API的功能,就可以讓大模型去干這些事情,而這就是函數調用;函數調用是實現AI Agent的基礎之一。
ok有了函數調用也就意味著大模型有了現實中的手和腳,但我們知道大模型目前的能力還有限;它還無法做到像真正的人類一樣聰明,面對復雜的問題它還是無法處理。因此,雖然大模型有了“手腳”,但它依然什么都干不了,因為沒有一個能夠指揮它的大腦。
因此,就需要一種方式來提高大模型這個大腦的邏輯思維能力,在遇到問題時,大模型能夠根據自己的邏輯思維能力進行判斷和處理。
而由此也誕生了一些新的技術,比如說思維鏈(CoT)技術等;目的就是讓大模型具備任務分解的能力,把一個復雜的工作任務拆解成多個簡單的可行的小任務;而這就是大模型的推理能力。
還有,目前的大模型沒有記憶功能,也就是說你每次和它說話都是全新的, 沒有上下文,這也是目前大模型的一個短板;因此你想連續和它交流就需要有一種解決這個問題的辦法,這個辦法就是怎么讓大模型具備上下文記憶的能力,比如連續對話的能力。
如果沒有記憶能力,那么AI Agent會發生什么事情?
那就會出現,上一秒大模型讓做的事情,下一秒它自己就忘了;而這就會導致重大的生產事故。而目前大模型的記憶能力主要是通過外部存儲庫實現的——比如說向量數據庫。
而有了以上三個東西,函數調用——大模型現實中的手腳;邏輯推理能力——大模型任務分解和規劃的能力;以及記憶能力——大模型上下文理解和連續對話的能力。大模型就可以像真正的人類一樣,去完成各種復雜的任務。
最后,還需要一個東西,那就是行動力;在大模型具備這些能力之后,我們就可以通過對話或其它方式,讓大模型按照具體的任務去行動;也就是先調用邏輯推理模型去分析和拆解任務;然后使用函數調用去實現外部功能的控制;最后使用向量數據庫報錯連續對話。
因此,這才有了AI Agent的一個經典架構圖:
即:工具模塊(函數調用),規劃模塊和記憶模塊;最后大模型通過這三個模塊來處理現實中的任務。
而具體這幾個模塊之間,怎么實現,使用了哪些技術,這就是另一個話題了。
本文轉載自公眾號AI探索時代 作者:DFires
