為何無頭瀏覽器是 AI Agent 的關鍵技術
Browserbase CEO Paul Klein IV 認為每個 AI 代理都需要一個無頭瀏覽器作為與傳統互聯網交互的橋梁。Browserbase 已經轉型為“適用于您的 AI 的 Web 瀏覽器”,并獲得了 4000 萬美元的 B 輪融資。無頭瀏覽器在 AI 代理中用于信息收集和任務執行,主要有視覺 Web 代理和文本 Web 代理兩種類型。
譯自:Why Headless Browsers Are a Key Technology for AI Agents[1]
作者:Richard MacManus
在本月的人工智能工程師世界博覽會[2]上,無頭瀏覽器供應商 Browserbase 的 CEO Paul Klein IV[3] 說:“每個 AI 代理都需要一個 Web 瀏覽器。”
什么是無頭瀏覽器?簡單來說[4],它是一個沒有圖形用戶界面的 Web 瀏覽器。直到最近,它們主要用于運行自動化 Web 應用程序測試以及 Web 抓取和屏幕截圖。多年來,涌現了三個開源項目來運行這些類型的任務:Puppeteer、Playwright 和 Selenium。Playwright 是最新的——它由 Microsoft 于 2020 年 1 月推出——也是最受歡迎的。
實際上,僅僅在過去一年中,無頭瀏覽器才出現了另一種全新的用例。突然之間,它們已成為一些人(包括 Microsoft[5] 和瀏覽器公司 Opera[6])所謂的“代理網絡”的關鍵組成部分。
AI 代理[7]是自主軟件應用程序,通常負責在互聯網上收集信息——然后將這些信息傳遞給用戶,或者根據這些信息采取行動(例如在電子商務網站上購買商品)。事實證明,無頭瀏覽器是這些 AI 代理的理想基礎設施。
“如果我們希望 AI 代理與傳統的互聯網的其他部分進行交互,他們需要一座橋梁。我真的相信瀏覽器就是那座橋梁。”– Paul Klein IV, Browserbase CEO
Browserbase 已經大力轉型以利用這個新市場。當該公司于 2024 年 1 月成立時,它將自己宣傳為一家瀏覽器基礎設施公司[8]。其主要產品是 Puppeteer、Playwright 和 Selenium 的托管服務。現在,僅僅 18 個月后,Browserbase 將自己描述為“適用于您的 AI 的 Web 瀏覽器”。
本月早些時候,Browserbase 宣布了一輪大規模的 B 輪4000 萬美元融資[9],表明無頭瀏覽器現在是一項大生意。在公告帖子中,Klein 提出了以下觀察:“瀏覽的未來是選擇性自動化。人類仍然會做那些令人愉快的、以發現為導向的任務。但是重復性的、耗時的工作應該由軟件來完成。這就是我們正在構建的。”
無頭瀏覽器如何在 AI 代理中使用
在他的 AI 工程師世界博覽會演講中,Klein 強調,大規模地完成自動化瀏覽器工作是其價值主張的關鍵。“通過 Browserbase,我們可以讓您在云中運行數千個無頭瀏覽器,以供代理控制,”他說。
Browserbase 今年還緊跟另一個巨大的趨勢:MCP 服務器[10]。根據 Klein 的說法,Browserbase 擁有“最受歡迎的瀏覽器自動化 MCP 服務器”。
[11]
Browserbase MCP 服務器。
他補充說,開發人員選擇 Browserbase 的 MCP 服務器的部分原因是,在“不性感的互聯網”(他的術語)中有數千個用例,他們的客戶沒有自定義 MCP 服務器。因此,使用內置 MCP 服務器的無頭瀏覽器(如 Browserbase 所做的那樣)是一種有效的解決方案。
“您有 AI 代理和傳統的互聯網,”Klein 解釋說。“你知道,DMV 不會很快擁有 MCP 服務器。我的理發店不會為我打開 GraphQL API 來安排理發,盡管我一直在懇求 John [可能是他的理發師] 這樣做。他有更重要的事情要做。因此,如果我們希望 AI 代理與傳統的互聯網的其他部分進行交互,他們需要一座橋梁。我真的相信瀏覽器是 AI 與互聯網其他部分之間的橋梁。”
他指出,“傳統的互聯網”上的許多組織不一定擁有 MCP 服務器,但他們可能有一個網站。(編者注:除非他們只有一個 Facebook 頁面[12]!)
“我認為現在人們使用了很多首字母縮略詞,”Klein 繼續說道。“你知道,你有 MCP,你有 A2A,你有 OpenAPI。但如果這些都不可用,你可以做一些可能被認為是愚蠢的事情:你只需使用一個網站。而且網站就在那里,有很多。有數十億個網站。當您的用戶將提示您的代理執行某些操作時,您可能并不總是可以使用第一方集成。”
[13]
“只需使用該網站。”
如果像 Browserbase 這樣專注于 AI 的公司是可信的,那么將越來越多地由 AI 代理訪問您的商業網站,這意味著人類 Web 訪問量將相應下降。但是,這些代理究竟是如何為其人類用戶獲取正確信息的?
Klein 回顧了當前可用的各種類型的 AI 代理以及它們如何控制瀏覽器。他從過去一年左右率先推出 Web 代理的產品開始——包括 WebVoyager、Adept 和 OpenAI 的 Operator。他將他們的方法描述為:“采用一個模型,然后生成一些代碼來控制瀏覽器,通常通過解析頁面上的 DOM、HTML 和 CSS。”
[14]
什么是 Web 代理?
他繼續說道,我們現在所處的位置是,有兩種主要的 Web 代理類型。
視覺 Web 代理通常使用無頭瀏覽器來獲取屏幕截圖“作為模型的上下文”,并且它們“可能會對屏幕截圖進行一些標記,以指示要單擊哪個框,”Klein 說。
文本 Web 代理“主要使用 HTML 作為模型的上下文”——Playwright 是這種方法中流行的工具。
[15]
兩種類型的代理。
順便說一句,Browserbase 有一個名為 Stagehand 的 Playwright 開源框架——適用于 Python 和 Node.js。在最近與 Brian Douglas 的播客采訪[16]中,Klein 說 Stagehand 是“Playwright 的超集”,并且它在“Playwright 之上添加了更多 AI 功能”。
Stagehand 是 Browserbase 在 AI 代理方面雄心的關鍵。在另一次播客采訪中,這次與 Latent Space[17] 合作,Klein 將 Stagehand 描述為“用于構建 Web 代理的框架”,其中開發人員可以調用三個 API“工具”:Act、extract 和 observe。
回到 AI 工程師世界博覽會的演講,Klein 說“計算機使用”模型是一種新興的 Web 代理類型。顧名思義,它是指在 UI 任務和“Web 軌跡”(AI 代理瀏覽網站時的一種工作流程)上訓練 AI 模型。
[18]
Web 軌跡。
結論
Klein 指出,目前“在教 AI 如何瀏覽 Web 方面正在發生很多創新 [...]——而且這東西越來越好。” 當然,如果 AI 代理要不辜負它們的炒作,那么能夠有效地自主瀏覽網站將至關重要。
您可以爭論說,對于 Web 發布商來說,他們的內容越來越多地由 AI 代理而不是人類瀏覽是否是一件好事(這是我非常關心的問題[19])。但是,很難反駁瀏覽器基礎設施是未來 AI 開發堆棧[20] 的關鍵組成部分。Browserbase 似乎完全適合這個市場。
引用鏈接
[1]
Why Headless Browsers Are a Key Technology for AI Agents:https://thenewstack.io/why-headless-browsers-are-a-key-technology-for-ai-agents/[2]
本月的人工智能工程師世界博覽會:https://www.youtube.com/watch?v=YRGjll7uu5w[3]
Paul Klein IV:https://www.linkedin.com/in/paulkleiniv[4]
簡單來說:https://en.wikipedia.org/wiki/Headless_browser[5]
Microsoft:https://blogs.microsoft.com/blog/2025/05/19/microsoft-build-2025-the-age-of-ai-agents-and-building-the-open-agentic-web/[6]
Opera:https://www.operaneon.com/[7]
AI 代理:https://thenewstack.io/how-ai-agents-are-starting-to-automate-the-enterprise/[8]
一家瀏覽器基礎設施公司:https://web.archive.org/web/20240101000000*/https://www.browserbase.com/[9]
4000 萬美元融資:https://www.browserbase.com/blog/series-b-and-beyond[10]
MCP 服務器:https://thenewstack.io/mcp-the-missing-link-between-ai-agents-and-apis/[11]
:https://cdn.thenewstack.io/media/2025/06/f8aeaaa1-browserbase-mcp-server-june25.jpg[12]
只有一個 Facebook 頁面:https://mastodon.art/@RMiddleton/114688285464490695[13]
:https://cdn.thenewstack.io/media/2025/06/709a6edd-browserbase-just-the-website.jpg[14]
:https://cdn.thenewstack.io/media/2025/06/f32cefc8-browserbase-types-of-agents.jpg[15]
:https://cdn.thenewstack.io/media/2025/06/7d8425b5-browserbase-two-types-of-agents.jpg[16]
與 Brian Douglas 的播客采訪:https://www.youtube.com/watch?v=ZHPY5QLIm0o[17]
與 Latent Space:https://www.youtube.com/watch?v=YUGItptS5hI[18]
:https://cdn.thenewstack.io/media/2025/06/2402f5ae-web-trajectories-june25.jpg[19]
我非常關心的問題:https://thenewstack.io/the-future-of-websites-in-the-age-of-ai-and-seo-decline/[20]
AI 開發堆棧:https://thenewstack.io/top-5-ai-engineering-trends-of-2023/