成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發帖玩游戲

2023-11-04 12:23:39

GPT-4V-Act，本質上是一個基于Web瀏覽器的AI多模態助手（Chromium Copilot）。它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面，并通過網頁中的交互按鍵進行下一步操作。

GPT-4V學會自動操縱電腦，這一天終于還是到來了。

只需要給GPT-4V接入鼠標和鍵盤，它就能根據瀏覽器界面上網：

圖片

甚至還能快速摸清楚“播放音樂”的播放器網站和按鈕，給自己來一段music：

圖片

是不是有點細思極恐了？

這是一個MIT本科生小哥整出來的新活，名叫GPT-4V-Act。

圖片

只需要幾個簡單的工具，GPT-4V就能學會控制你的鍵盤和鼠標，用瀏覽器上網發帖、買東西甚至是玩游戲。

要是用到的工具出bug了，GPT-4V甚至還能意識到、并試圖解決它。

圖片

來看看這是怎么做到的。

教GPT-4V“自動上網”

GPT-4V-Act，本質上是一個基于Web瀏覽器的AI多模態助手（Chromium Copilot）。

它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面，并通過網頁中的交互按鍵進行下一步操作。

要實現這種效果，除了GPT-4V以外，還用到了三個工具。

一個是UI界面，可以讓GPT-4V“看見”網頁截圖，也能讓用戶與GPT-4V發生交互。

這樣，GPT-4V就能將每一步運行思路都通過對話框的形式反映出來，用戶來決定是否要繼續讓它操作。

圖片

另一個是Set-of-Mark Prompting（SoM）工具，讓GPT-4V學會交互的一款工具。

圖片

這個工具由微軟發明，目的是更好地對GPT-4V進行提示詞工程。

相比讓GPT-4V直接“看圖說話”，這個工具可以將圖片關鍵細節拆分成不同的部分，并進行編號，讓GPT-4V有的放矢：

圖片

對于網頁端也是如此，Set-of-Mark Prompting用類似的方式讓GPT-4V知道從網頁瀏覽器的哪個部分找答案，并進行交互。

最后，還需要用到一個自動標注器（JS DOM auto-labeler），可以將網頁端所有能交互的按鍵標注出來，讓GPT-4V決定要按哪個。

圖片

一套流程下來， GPT-4V不僅能準確判斷圖片上的哪些內容符合需求，還能準確找到交互按鍵，并學會“自動上網”。

這是個大項目，目前還只實現了部分功能，包括點擊、打字交互、自動標注等。

接下來，還有其他的一些功能要實現，例如試試AI打標器（目前網頁端的交互還是通過通過JS接口得知哪里能交互，不是AI識別的）、以及提示用戶輸入詳細信息等。

圖片

此外，作者也提到，現階段GPT-4V-Act用法上還有一些需要注意的地方。

例如，GPT-4V-Act可能會被網頁打開后鋪天蓋地的彈窗小廣告給“整懵了”，然后出現交互bug。

圖片

又例如，目前這種玩法可能會違反OpenAI的產品使用規定：

除非API允許，否則不得使用任何自動化或編程的方法從服務中提取數據并輸出，包括抓取、網絡收集或網絡數據提取。

圖片

所以用的時候也要低調一點（doge）

微軟SoM作者也來圍觀

這個項目在網上發出后，吸引了不少人的圍觀。

像是小哥用到的微軟Set-of-Mark Prompting工具的作者，就發現了這個項目：

出色的工作！

圖片

還有網友提到，甚至可以用來讓AI自己讀取驗證碼。

圖片

這個在SoM項目中提到過，GPT-4V是能成功解讀驗證碼的（所以以后可能還真不知道是人還是機器在上網）。

圖片

與此同時，也有網友已經在想象桌面流自動化（desktop automation）的操作了。

對此作者回應稱：

AI自動標注器應該能實現這個，我也確實在計劃制作一個更通用的Copilot。

圖片

不過目前GPT-4V還是要收費的，有沒有其他的實現方法？

作者也表示，目前還沒有，但確實可能會嘗試Fuyu-8B或者LLaVAR這樣的開源模型。

圖片

免費的自動化桌面流AI助手，可以期待一波了。

參考鏈接：
[1]https://github.com/ddupont808/GPT-4V-Act
[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/

責任編輯：武曉燕來源：量子位

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：久艹网站| 欧美爱爱视频 | 国产精品免费在线 | 国产精品成人免费 | 免费99精品国产自在在线 | 精品亚洲视频在线 | 福利社午夜影院 | av天天干 | 国产h视频 | 日韩欧美二区 | 精品欧美一区二区精品久久久 | 国产成人精品一区二 | 久久毛片| 蜜桃视频成人 | 蜜桃在线播放 | 午夜影视 | 四虎影院新地址 | 99久热在线精品视频观看 | 九九久久这里只有精品 | 久久久久成人精品 | 国产不卡在线观看 | 精品福利一区二区三区 | 亚洲欧洲成人av每日更新 | 亚洲资源站 | 国产成人jvid在线播放 | 亚洲精品一区二区三区蜜桃久 | 精品在线观看入口 | 日本欧美三级高清视频 | 国产精品成av人在线视午夜片 | 免费高清成人 | 欧美一区二区免费在线 | 亚洲一区二区三区四区五区中文 | 欧美日韩国产一区二区三区 | 伊人精品在线视频 | 国产精品日韩一区 | 欧美视频日韩 | 免费观看黄a一级视频 | 日韩精品一区二区在线 | 亚洲视频中文字幕 | 国内av在线 | 久久久国产一区二区三区 |