微軟開源瀏覽器Agent,可實時跟蹤、控制智能體,超4000顆星
微軟在官網開源了一個專用于瀏覽器網絡任務的Agent——Magentic-UI。
Magentic-UI是基于微軟曾經開源的 Magentic-One基礎之上開發而成,并支持人機協同的控制方法來提升智能體的執行效率和準確率。
根據GAIA測試數據顯示,當配備擁有輔助信息的模擬用戶時,Magentic-UI 的任務完成率從自主模式下的30.3%提升至51.9%,準確率提高了71%。此外,Magentic-UI 在執行任務時僅在10%的情況下向模擬用戶尋求幫助,且平均每次任務僅需幫助1.1次。
開源地址:https://github.com/microsoft/magentic-ui
Magentic-UI以人為本
Magentic-UI最大亮點之一便是以人類為中心,與傳統 Agent 的不同在于其將人類深度融入到任務執行的各個環節,而不是單純追求完全自動化。
傳統 Agent 往往以實現任務的自主完成為目標,強調的是機器的獨立性和自動化程度,用戶可能對 Agent 的具體操作過程和決策依據不夠了解,甚至在出現問題時難以及時干預和糾正。
而Magentic-UI 則采用了人機協作的模式,充分考慮了人類在任務執行中的作用和價值,通過與用戶緊密協作來完成任務,讓用戶能夠實時掌控 Agent 的行為,并根據需要進行調整和指導。
在規劃階段,Magentic-UI 會與用戶進行協同規劃,不會直接按照預設的程序或算法來制定任務計劃,而是先與用戶溝通交流,了解用戶的需求和期望,然后生成一個初步的分步計劃,并允許用戶通過計劃編輯器或提供文本反饋的方式直接修改這個計劃。
用戶可以根據自己的經驗和對任務的理解,對計劃中的步驟進行添加、刪除、調整順序等操作,甚至可以重新撰寫某些步驟,以確保計劃更符合實際需求。這種協同規劃的方式,使得用戶能夠將自己的專業知識和經驗融入到任務計劃中,從而提高任務完成的質量和效率。
在任務執行過程中,Magentic-UI也強調與用戶的協同執行。它會實時向用戶展示自己即將采取的具體行動,比如要點擊哪個按鈕、輸入什么內容、訪問哪個網頁等,同時也會將觀察到的網頁信息實時反饋給用戶。
用戶可以隨時暫停 Agent 的操作,通過自然語言向 Agent 提供反饋,指出問題、提出建議或進行糾正,甚至可以直接接管瀏覽器的操作,親自完成某些步驟,然后再將控制權交還給Agent。這種協同執行的方式,讓用戶能夠及時發現并解決 Agent 在執行過程中可能出現的問題,避免了因 Agent 的錯誤操作而導致任務失敗或產生不良后果。
Magentic-UI還具有獨特的“行動保護”機制,即在執行一些可能不可逆的操作之前,會征求用戶的許可。這些操作可能包括關閉標簽頁、點擊有副作用的按鈕、提交表單等。
用戶可以根據自己的判斷,決定是否允許Agent執行這些操作,從而避免了因 Agent 的盲目操作而帶來的風險。Magentic-UI 還采用了沙盒技術,將瀏覽器和代碼執行器等工具運行在隔離的環境中,進一步確保了操作的安全性,防止了 Agent 可能帶來的安全威脅。
Magentic-UI框架簡單介紹
當用戶向Magentic-UI 提出一個自動化任務請求時,系統首先會接收用戶的輸入,這可以是簡單的文本指令,也可以是附帶圖像的復雜需求。Magentic-UI 的核心組件協調器,會根據用戶的輸入,利用其背后的大語言模型(LLM)能力,生成一個初步的分步計劃。這個計劃詳細列出了完成任務所需的各個步驟,包括需要訪問的網頁、需要執行的操作以及可能需要調用的其他工具。
生成初步計劃后,Magentic-UI 并不會直接開始執行,而是進入一個關鍵的協同規劃階段。在這個階段,用戶可以通過一個直觀的計劃編輯界面,直接對 Magentic-UI 生成的計劃進行修改。用戶可以添加、刪除或調整計劃中的步驟,甚至可以完全重新撰寫某些步驟。
Magentic-UI會實時反饋用戶的修改建議,并根據用戶的反饋調整計劃。這一過程確保了用戶能夠將自己的專業知識和期望融入到任務計劃中,從而提高任務完成的準確性和效率。
經過用戶確認或修改后的計劃會被發送到執行階段。Magentic-UI 的執行過程是高度透明和協作式的。系統會實時向用戶展示它即將采取的具體行動,例如,點擊按鈕、輸入搜索詞或訪問特定網頁。
同時,Magentic-UI 也會將它在網頁上觀察到的信息實時反饋給用戶。用戶可以隨時暫停Magentic-UI 的操作,并通過自然語言提供反饋,指出問題或提出建議。如果用戶認為某個步驟需要親自操作,他們甚至可以直接接管瀏覽器的操作,完成特定步驟后再將控制權交還給 Magentic-UI。
Magentic-UI的另一個重要特性是自我計劃學習。在完成任務后,它可以從用戶的反饋和任務執行過程中學習并保存分步計劃,形成一個計劃庫。
在未來的任務中,當用戶輸入與之前相似的任務時,Magentic-UI 可以快速檢索并調用相應的計劃,從而大大提高任務執行的效率。并且,用戶可以隨時查看和修改保存的計劃,根據需要進行調整和優化,以便更好地應對不同的任務場景。
目前,Magentic-UI在Github超4000顆星,并且支持MIT 許可證商用。