剛剛,OpenAI 開(kāi)源了兩個(gè) Agent 項(xiàng)目,手搓 Manus 時(shí)代來(lái)襲 原創(chuàng)
OpenAI 剛剛舉辦了一場(chǎng)針對(duì)開(kāi)發(fā)者的直播活動(dòng),推出了全新的 Agent 開(kāi)發(fā)套件,旨在助力開(kāi)發(fā)者打造穩(wěn)定而強(qiáng)大的 AI Agents。以下是該套件的核心組成部分:
Agents Blog:
https://openai.com/index/new-tools-for-building-agents
1、內(nèi)置工具:套件內(nèi)置了多種工具,包括網(wǎng)頁(yè)搜索、文件搜索以及電腦操作(Computer Use)功能。
Built-in tools:
https://platform.openai.com/docs/guides/tools?api-mode=responses
2、Responses API:推出了一款新的響應(yīng) API,它融合了 Chat Completions API 的簡(jiǎn)易性和 Assistants API 的工具使用能力,適用于構(gòu)建 AI Agents。
Responses API:
https://platform.openai.com/docs/api-reference/responses
3、Agents SDK:提供了一套用于協(xié)調(diào)單智能體和多智能體工作流程的 SDK。
Agents SDK 項(xiàng)目:
https://github.com/openai/openai-agents-python
4、監(jiān)控工具:集成了可觀察性工具,用于跟蹤和檢查 Agent 工作流程的執(zhí)行情況。
特別值得一提的是,Agents SDK 是開(kāi)源的,并且 OpenAI 還開(kāi)源了一個(gè)名為 Computer Using Agent 的項(xiàng)目。以下是兩個(gè)項(xiàng)目的詳細(xì)介紹:
第一、Agents SDK 項(xiàng)目
OpenAI Agents SDK 是一個(gè)輕量級(jí)但功能豐富的框架,用于創(chuàng)建多智能體工作流程。
核心概念:
Agent(智能體):基于大模型(LLMs)的智能體,通過(guò)指令進(jìn)行配置,配備了工具、防護(hù)欄和交接功能。
Handoffs(交接):允許智能體將任務(wù)控制權(quán)轉(zhuǎn)交給其他智能體。
Guardrails(防護(hù)欄):可配置的安全檢查,用于輸入和輸出的驗(yàn)證。
Tracing(追蹤):內(nèi)置的智能體運(yùn)行追蹤功能,方便查看、調(diào)試和優(yōu)化工作流程。
Agents SDK 項(xiàng)目:
https://github.com/openai/openai-agents-python
第二、Computer Using Agent 項(xiàng)目
OpenAI 提供了一個(gè)示例應(yīng)用程序,展示了如何使用 OpenAI API 構(gòu)建計(jì)算機(jī)使用 Agent(CUA:Computer Using Agent):
計(jì)算機(jī)使用工具以循環(huán)方式連續(xù)運(yùn)行,發(fā)送計(jì)算機(jī)操作命令(如 click(x,y) 或 type(text)),代碼在計(jì)算機(jī)或?yàn)g覽器環(huán)境中執(zhí)行這些操作,并將屏幕截圖結(jié)果返回給大模型。
通過(guò)這種方式,代碼可以模擬人類(lèi)在計(jì)算機(jī)界面上的操作,而大模型則通過(guò)屏幕截圖來(lái)理解環(huán)境狀態(tài)并決定下一步行動(dòng)。
這種循環(huán)機(jī)制可以自動(dòng)執(zhí)行許多需要點(diǎn)擊、輸入、滾動(dòng)等操作的任務(wù),例如預(yù)訂航班、搜索產(chǎn)品或填寫(xiě)表格。
Computer Using Agent 項(xiàng)目:
https://github.com/openai/openai-cua-sample-app
以下是電腦使用操作的示意圖:
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/uVHZcrdhXXeyeXYa-YnMpQ??
