智譜大秀肌肉!CogAgent 2.0讓大模型接管一切!GLM-PC首創隱形屏幕,人類監工AI不遠了 原創
編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
智譜 Agent OpenDay,手機上的自動駕駛正式升級為全家桶!
AutoGLM、AutoGLM-Web、GLM-PC,分別在手機、瀏覽器和電腦端可用!
這下終于全員能體驗一把 AI 助手「會操作」的魅力了。此前推出的 AutoGLM 因為蘋果生態的限制,只有安卓版,讓許多用戶都沒能走到申請內測的那一步。
現在最快能上手的就是已經上線的 Web插件了,無需申請內測!
在演示 demo 里,智譜大秀肌肉,展現了一把 AutoGLM 從小紅書搜索火鍋食材,到小象超市下單的共 53 步的操作。(這么想想一個簡單的食材采買,其實也是非常繁瑣的事。)
更多AutoGLM、GLM-PC的神奇操作,可以看看官方放出的視頻,讓人直呼魔法。
1.GLM-PC ,第一個提出了隱形屏幕
CogAgent 如何學會操作設備的呢?
技術負責人潘立航解釋,目前主要有三大類學習方案。
先是被動模仿,讓 AI 觀察我們人類是如何使用計算機的,讓 AI 了解各種操作。
第二步是交互學習,在這一步中,人類做導師,AI 在指導下操作計算機。
第三步則是主動探索,計算機能自己琢磨研究,完成提升。
圖片
不過,AI 目前的操作還有很多限制,完成任務的效率也相對較慢。
例如,Claude 3.5,他在操作電腦進行編程時,就被研究人員發現 AI 竟然偷偷摸魚,瀏覽器了黃石公園的照片。
圖片
而且,在 AI 接管電腦的時候,人類就不能并行做事了。這就使得 AI 用電腦的效率很低。
在這次發布會里,GLM-PC 提出了隱形屏幕,讓人眼前一亮!
也就是說,未來人和 AI 能同時使用一臺電腦工作,AI 不再搶占屏幕和鍵盤鼠標。當然了,我們還可以繼續監工 AI,把它的屏幕放在小窗,隨時查看,但又互不干擾。
潘立航說,GLM-PC 有計劃讓 AI 分身,創造多個隱形屏幕,一個打工人,就是一支隊伍。
隱形屏幕預計明年 Q1 推出,看來 2025 年的 AI圈也會非常精彩。
圖片
2.上手實測:教 AI 比自己做累多了
AutoGLM 很酷,但就像我們用的一系列 AI 功能一樣,離完成品還有非常遠的路要走。
看到消息,我迫不及待的體驗了一把,下載即用的瀏覽器插件,AutoGLM-Web。
首先,目前在插件中,AutoGLM 支持的網站比較有限。
圖片
更重要的是,AutoGLM 的意圖識別還不夠“智能”,需要寫更詳細地prompt來指導 AI,而它的響應也需要等待。
實測開始,我在百度主頁看到一個羽絨服的熱搜,因為標題在賣關子,就讓 AI 幫我看看是個啥事。
圖片
使用 AutoGLM 幫我查看,在優化 prompt 后,AI 成功點開了相應的熱搜,但卻沒能進一步點開搜索結果就進行了總結。
視頻經過二倍速處理。
由于沒有點擊搜索結果(可能因為搜索結果不在支持網站的范圍,另外,第一條結果是個視頻,對于 AI 來說理解視頻也具備困難),總之,AutoGLM 的總結和新聞主要信息中的「假羽絨以次充好」「舊羽絨服翻新」有所出入。
圖片
在隱形屏幕出現后,我或許會嘗試將更多的任務外包給 AutoGLM。
這些 demo 更像對不久的未來的一種預言。我們能體會到 demo 中 AI 助手的神奇與實用,產品的設計面向了實打實的生活場景,可以預見這些 AI 功能將在未來給我們節省大量的時間和精力——可能不是現在。
本文轉載自??51CTO技術棧??,作者:伊風
