OpenAI發布新年目標,Agent智能體或將迎來百模大戰
2025年1月1日,OpenAI CEO 奧特曼公布了公司的新年目標,涵蓋AGI、智能體、4o升級、模型更好記憶、更長上下文等等。
圖片
關于智能體,有網友爆料,OpenAI 可能在 1 月份發布一個名為 “operator” 的 Agent,這個 Agent 將具備直接控制電腦的能力。
圖片
其實24年10月份的時候,Claude 就已經發布了基于 Claude 3.5 Sonnet 多模態大模型,可操作電腦的智能體。
圖片
上圖左側是智能體的執行過程,Claude 能夠感知計算機界面并與之交互,將用戶的指令(例如“使用我的計算機和在線數據填寫此表格”)轉換為計算機命令(例如,檢查電子表格;移動光標以打開 Web 瀏覽器;等等)。
要實現這種智能體至少依賴大模型的三項技術能力。
第一,用戶意圖理解能力,比如,用戶說“打開瀏覽器并搜索 AI 最新進展”,大模型需要解析出“打開瀏覽器”和“搜索 AI 最新進展”兩個子任務。
第二,任務規劃與執行能力,需要將復雜的任務分解為一系列可執行的子任務。例如,“發送一封郵件”分解為“打開郵箱應用”、“點擊撰寫按鈕”、“輸入收件人”、“輸入內容”、“點擊發送”等步驟。
第三,視覺理解能力(多模態大模型),例如,“打開網址”需要識別瀏覽器地址欄的位置并輸入 URL。
幾乎同一時間,微軟也開源了一款基于GPT-4V視覺大模型的屏幕解析工具——OmniParser,能夠將用戶界面(UI)截圖轉換為結構化元素,幫助 AI 精準理解屏幕內容并生成操作指令。
圖片
當然,國內大模型也不甘示弱,智譜手機端 AutoGLM,通過語音指令模擬人操作,實現電商購物、點外賣、微信回復等功能。
下面是這三款工具總結對比:
圖片
不過現階段,這類智能體還有瑕疵,能力并不完美。
但我覺得沒關系,我們不指望它能完成一個大型或者復雜的任務,現階段能幫我們完成單一、重復性工作就挺好,嗯...自動搶票?
哦,對了前幾天谷歌也發布了類似智能體,基于新版多模態大模型 Gemini 2.0 的瀏覽器智能體,可以自動使用瀏覽器完成工作。
過去一年智能體話題一直保持很高熱度,10月份時候 OpenAI 還開源了一款多智能體Python開發框架——Swarm。
圖片
這次又將智能體列為新年目標,看起來是要大干一場。估計各大模型廠商也要在這一領域卷一卷了。
我們仍然選擇趴窗戶看。