智譜Agent搶跑OpenAI，GLM-PC一句話搞定一切！網友：有AGI那味了

作者：新智元 2025-01-24 08:30:00

人工智能新聞

OpenAI超級智能體，竟被中國公司搶發？智譜率先卷入L3級使用工具能力，發布全球首個面向公眾、回車即用的電腦智能體GLM-PC。

放假倒計時4天，春節期間最少不了的是什么？

發拜年微信！

想象這樣一個場景：微信上給xxx發送祝福語，再給他發送一個新春圖片和一個新春祝賀視頻。

這一幕，聽起來是不是比搶紅包還刺激？

就在剛剛，一個具有「代碼思維」智能體悄然而至——GLM-PC v1.1。

它可以成為你的「手替」，任何事都可以由它代勞。

這不，我們上傳一張圖片后，然后給出指令——「識別圖片中的信息生成朋友圈文案，并發送一個朋友圈」。

它首先會將任務分解成多個步驟，并對圖片內容進行識別，生成相應配文。

然后，AI瞬間跳轉到微信，打開朋友圈，將圖片上傳，再附上文案，一鍵發送就搞定了。

這個神操作，讓許多人看了驚掉下巴。

現在的AI都這么強了？

沒錯，這個在去年11月就搶跑了OpenAI的「GLM-PC」，就是智譜發布的全球首個面向公眾、回車即用的電腦智能體，小名叫「牛牛」。

爆料稱OpenAI超級智能體也將在本周問世

現在，經過全新升級的v1.1版本，不僅能夠像人類一樣「觀察」和「操作」計算機，自主完成各種復雜任務；而且還擁有「深度思考」模式，以及專門用來做邏輯推理和代碼生成的功能。

值得一提的是，GLM-PC的Window和Mac客戶端已經同步上線了。

試用地址：https://cogagent.aminer.cn

左腦與右腦，GLM-PC的Agent思維結構

2025年，注定是智能體「元年」。

OpenAI曾被曝出內部AGI路線圖，將這一終極目標的實現劃分了五級。目前已經實現了L2級，下一步就是向自主AI智能體邁進。

幾周前，ChatGPT「任務」功能，已初步向所有人展示了AI自主看股票、提醒日程的能力。

不僅如此，還有谷歌、微軟、Ahthropic、亞馬遜等國內外科技公司門，紛紛開始在智能體領域發力。

與大洋彼岸的巨頭們相比，智譜在智能體領域，早已展現出令人矚目的領先優勢。

值得一提的是，24年10月，他們推出的AutoGLM憑借流暢的智能手機操作能力，迅速引爆科技圈。

智譜之所以能夠成為這一領域的先行者，離不開這家公司從成立伊始就繪制出的AI路線圖。

2024年，智譜同樣將AGI的實現劃分了5級，能力從L1逐步攀升至L5。

在他們看來，AI的能力早已突破了傳統語言和文本處理限制。

目前，AI已經從語言/文本逐漸擴展到多模態、工具使用，未來還會有更多的自我認知。

而最近，智譜CEO張鵬在Agent OpenDay上，再次闡述了公司對AI能力演進的戰略構想：

截至目前，LLM已經初步具備了人類與現實物理世界互動的部分能力。
智能體將會極大地提升L3使用工具能力，同時開啟對L4自我學習能力的探索。

這個技術愿景，是智譜所獨有的。

GLM-PC v1.1的推出，意味著智譜在L3級智能體的探索又有了新的進展！

截至目前，智譜已經有了手機智能體AutoGLM和電腦智能體GLM-PC兩大系統，實現了工具使用能力的深度突破。

這兩個系統分別覆蓋了移動設備和桌面端——

AutoGLM在手機上，能夠精準操控各類應用，實現跨場景智能交互；而GLM-PC則將電腦端的操作提升到了新的高度，基于視覺語言模型VLM的圖形界面智能體GUI Agent，實現邏輯推理與感知認知的結合，凸顯出AI對復雜系統工具的掌控力。

這些并非是簡單功能的堆砌，而是對人機交互范式的根本性重塑。

根據這個技術路線圖，AI實現L3之后，通過不斷優化工具使用能力，正為L4階段——自主學習發明創新奠定了扎實的技術基礎。

這也正是智譜下一步，所要開拓的智能。

多模態感知，通往全GUI空間交互

回到現在，當前LLM一個明顯的缺陷是：能夠公開使用的純文本形式的API工具非常有限。

這就大大限制了語言模型作為Agent的使用場景。那么，我們有什么辦法能破局？

智譜選擇了一條通往全GUI空間交互的道路——借助多模態感知！

這個思路，就體現在以CogAgent為代表的一系列基于視覺語言模型（VLM）的圖形界面智能體（GUI Agent）上。

基于VLM的GUI Agent通過模仿人類行為，就能感知和理解交互界面中的視覺元素與整體布局，并能模擬人類做出任意元操作（例如點擊、鍵盤輸入、懸浮、拖拽等）。

這，就拓寬了Agent在虛擬交互空間中的使用邊界——理論上，任意人類能做的GUI操作，從此多模態Agent都能完成了！

接下來的問題，就是如何才能讓這些智能體去完成實際應用中的復雜任務了。

為此，我們需要打造一個在感知、思維，以及執行層面完備的Agent系統。

感知層面，能接受任務所需的多元信號，如文字、圖像、視頻、音頻。
思維層面，具備嚴謹的邏輯思維能力和復雜任務規劃能力（類似左腦），也具備高效全面的感知能力、靈活的擬人操作能力（類似右腦）。
執行層面，能完成全GUI空間操作，接收環境反饋并自我糾正。

在這之中，最為重要的一點就是，要在邏輯性和創造性之間實現平衡。

如今，智譜通過借鑒人類「左腦」與「右腦」分工，成功實現了邏輯推理與感知認知的深度結合，賦予了GLM-PC這種能力。

Agent左腦：代碼思維框架與邏輯執行

智能體的大腦，就好比人類一樣，左腦負責邏輯語言、數學等理性的信息，而右腦主要負責的是視覺、感知等感性信息。

那么，GLM-PC的「左腦」便承擔著嚴謹的邏輯推理、代碼，以及任務執行職責。

它主要專注于規劃、循環執行、動態反思、糾錯與優化。

接下來，讓我們在實際demo中，具體看看GLM-PC（牛牛）是怎么做到的。

規劃（Planning）

想象一下，若是有一個超級助手基于用戶需求，能瞬間將復雜任務拆解為清晰可行的步驟，是不是會省力得多。

GLM-PC「左腦」，正是這樣一個智能規劃的專家。

通過綜合分析目標與資源，它能夠生成執行路線圖，并將大型任務自動分解為可管理的子任務，以構建出清晰的執行路徑。

馬上就要春節了，假設你要采購一批年貨，直接將匯總的圖片鏈接扔給牛牛，并告訴它——

獲取圖片中的商品信息，在桌面新建Excel存儲信息，把商品信息加入淘寶購物車。

牛牛獲取圖片中的信息后，將指令中的需求拆分，先保存Excel文件，然后列出了將魔芋爽、薯片、豬肉脯、辣條添加到購物車的分解步驟。

在規劃完成后，GLM-PC將啟動代碼生成模塊，執行邏輯循環，逐步推進任務完成

接下來，就是見證奇跡的時刻了。

循環執行（Looping Execution）

牛牛進入淘寶主頁，開始搜索魔芋爽，點擊加入購物車；然后再回到搜索主頁，查找薯片加入購物車；之后繼續執行，直到所有完成商品加入購物車的任務。

完全不用手動，AI就幫你做了。這是因為在規劃階段結束后，GLM-PC 將啟動代碼生成模塊，執行邏輯循環，逐步推進任務完成。

（視頻做了一定加速處理）

可見，GLM-PC的循環機制確保了任務的精確執行與高度自動化，從而實現從輸入到輸出的完整閉環，無需人工干預。

長思考能力：動態反思、糾錯與優化

以上，還只是GLM-PC左腦基本的一個操作。

除了生成靜態規劃，它還能在執行任務過程中，根據環境信息實時動態調整，反思糾正和自我糾錯，從而持續優化解決方案。

舉個栗子，你想假期與朋友聚會準備去看一場「春節賀歲檔電影」，小紅書會有很多推薦。

這時，你根本不用自己去手動搜索，直接打開牛牛，告訴它——

在小紅書搜索「春節賀歲檔電影」，引用第一篇圖文貼的貼子圖片，把圖片發送到微信上的{GGG}群聊，問他們想看哪一部電影。

如同上個案例，牛牛收到指令后逐步分解任務，先去小紅書中搜索「春節賀歲檔電影」第一個帖子。

接下來，它又回到工作臺，開啟一步任務——進入微信找到「GGG」群聊，然后發送消息。

這樣一來，你能省下大把手動篩選和分享的時間。

總而言之，通過這些自動化操作，GLM-PC能夠提供了更加便捷的社交互動和決策支持。

Agent右腦：圖像與GUI認知

見識了GLM-PC「左腦」的強大，它的「右腦」是一個具有深度感知與交互體驗的智能系統。

其核心功能涵蓋了多個方面，比如GUI圖像理解、用戶行為認知、圖像語義解析、多模態信息融合。

還以春節常見的場景為例，現在有了GLM-PC就能向領導「花樣」送祝福了！

給微信上的「大Boss」發送2025年新春祝福語，再給他制作一個新春圖片，發送給他

GLM-PC進入微信找到「大Boss」，然后生成簡短的祝福語，確認發送。

然后，再回到控制臺，生成一張精美的圖片發給老板。

有了這個拜年神器，你只管玩手機，群發多少個都能搞定。

左右腦協作，迎來更強泛化能力！

正是上面這種左右腦協作的模式，讓GLM-PC成為了Agent of Agents。

現在，它不僅能處理復雜的邏輯任務，在面對開放性問題時，適應能力、創造力和泛化能力也更強了。

比如，即使從未在訓練中見過的網頁和任務，GLM-PC都能完成。

有了這個AI，手寫抄題可以省媽了。

現在只需將試卷PDF文檔上傳，讓GLM-PC提取出想要界面的內容，簡直易如反掌。

幫我把桌面的排列組合與二項式定理練習.pdf文件打開，引用總結當前界面的前幾條數學題，放到桌面新建word文檔中

成功提取文字后，AI會自動將信息保存到Word文檔中。

再比如，我想要追一部劇——「驛站」，直接告訴GLM-PC：「騰訊視頻搜索『驛站』電視劇，并播放」。

它會立即跳轉到騰訊主頁，搜索關鍵詞，打開了視頻。

背后模型

GLM-PC的背后，智譜自主研發的多模態Agent模型CogAgent與代碼模型CodeGeex。

在智能體運轉的過程中，首先會生成代碼形式的思維框架，指揮GLM-PC的工作流程和工具調用。

期間，GLM-PC可以穩定高效地應對各種復雜場景和任務。

并且在實際執行時，GLM-PC會感知到來自GUI環境、程序執行環境與模型間的多層反饋，協助反思，有效地自我糾正與優化。

CogAgent-9B-20241220執行指令「標題設置為CogAgent」的過程

其實早在2023年8月，智譜就開始研發首個基于視覺語言模型（VLM）的開源GUI智能體模型——CogAgent。

在經過一年多的迭代升級之后，CogAgent于2024年12月重磅升級到了「9B-20241220」版本，并成功應用在了剛剛推出的GLM-PC上。

值得一提的是，最新的CogAgent-9B-20241220除了已經用在自家產品上外，團隊為了讓研究者們有機會共同探索與提升與訓練GUI Agent，已經在第一時間進行了全面的開源。

開源項目：https://github.com/THUDM/CogAgent

評測結果顯示，CogAgent-9B-20241220模型在多平臺、多類別的GUI agent及GUI grounding benchmarks上取得了當前最優的結果。

其中，CogAgent在GUI定位（Screenspot）、單步操作（OmniAct）、中文step-wise榜單（CogAgentBench-basic-cn）、多步操作（OSWorld）都取得了領先的結果，僅在OSworld上略遜于針對Computer Use特化的Claude-3.5-Sonnet和結合外接GUI grounding模型的GPT-4o。

下一步，裝進AIPC

下一步，GLM-PC還將與AIPC深度融合，讓所有人觸手可及。

據稱，智譜正與聯想、華碩等知名PC廠商展開深度合作探討，共同推動AIPC的創新與發展。

AIPC絕不僅僅是一臺電腦，更是Agent在個人計算領域的全新應用。

未來，是一個智能無限的世界。

個人電腦能夠完全理解你的意圖，自動幫你優化工作流程，而且7x24小時待命，隨時提供精準的智能支持。

現在，GLM-PC正將這個未來變成現實。而我們，已經站在了這場智能革命的最前沿。

責任編輯：張燕妮來源：新智元

智能體 AI 工具

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看