OpenAI發布新年目標，Agent智能體或將迎來百模大戰

作者：渡碼 2025-01-03 11:02:38

關于智能體，有網友爆料，OpenAI 可能在 1 月份發布一個名為 “operator” 的 Agent，這個 Agent 將具備直接控制電腦的能力。其實24年10月份的時候，Claude 就已經發布了基于 Claude 3.5 Sonnet 多模態大模型，可操作電腦的智能體。

2025年1月1日，OpenAI CEO 奧特曼公布了公司的新年目標，涵蓋AGI、智能體、4o升級、模型更好記憶、更長上下文等等。

圖片

關于智能體，有網友爆料，OpenAI 可能在 1 月份發布一個名為 “operator” 的 Agent，這個 Agent 將具備直接控制電腦的能力。

圖片

其實24年10月份的時候，Claude 就已經發布了基于 Claude 3.5 Sonnet 多模態大模型，可操作電腦的智能體。

圖片

上圖左側是智能體的執行過程，Claude 能夠感知計算機界面并與之交互，將用戶的指令（例如“使用我的計算機和在線數據填寫此表格”）轉換為計算機命令（例如，檢查電子表格；移動光標以打開 Web 瀏覽器；等等）。

要實現這種智能體至少依賴大模型的三項技術能力。

第一，用戶意圖理解能力，比如，用戶說“打開瀏覽器并搜索 AI 最新進展”，大模型需要解析出“打開瀏覽器”和“搜索 AI 最新進展”兩個子任務。

第二，任務規劃與執行能力，需要將復雜的任務分解為一系列可執行的子任務。例如，“發送一封郵件”分解為“打開郵箱應用”、“點擊撰寫按鈕”、“輸入收件人”、“輸入內容”、“點擊發送”等步驟。

第三，視覺理解能力（多模態大模型），例如，“打開網址”需要識別瀏覽器地址欄的位置并輸入 URL。

幾乎同一時間，微軟也開源了一款基于GPT-4V視覺大模型的屏幕解析工具——OmniParser，能夠將用戶界面（UI）截圖轉換為結構化元素，幫助 AI 精準理解屏幕內容并生成操作指令。

圖片

當然，國內大模型也不甘示弱，智譜手機端 AutoGLM，通過語音指令模擬人操作，實現電商購物、點外賣、微信回復等功能。

下面是這三款工具總結對比：

圖片

不過現階段，這類智能體還有瑕疵，能力并不完美。

但我覺得沒關系，我們不指望它能完成一個大型或者復雜的任務，現階段能幫我們完成單一、重復性工作就挺好，嗯...自動搶票？

哦，對了前幾天谷歌也發布了類似智能體，基于新版多模態大模型 Gemini 2.0 的瀏覽器智能體，可以自動使用瀏覽器完成工作。

過去一年智能體話題一直保持很高熱度，10月份時候 OpenAI 還開源了一款多智能體Python開發框架——Swarm。

圖片

這次又將智能體列為新年目標，看起來是要大干一場。估計各大模型廠商也要在這一領域卷一卷了。

我們仍然選擇趴窗戶看。

責任編輯：武曉燕來源：渡碼

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看