成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Windsurf分享了他們對(duì)構(gòu)建Agent應(yīng)用的認(rèn)知

發(fā)布于 2025-5-7 07:08
瀏覽
0收藏

windsurf最近發(fā)表了一篇博客,主要是討論和介紹Agent。內(nèi)容上有很多基礎(chǔ)知識(shí),但是也有一些特別的認(rèn)知分享,今天挑出來這些不常見的insight,分享給大家。

在windsurf的理念里。一個(gè) Agentic AI 系統(tǒng),是非常簡潔的,就是一個(gè)由LLM做決策 + 工具干活 持續(xù)迭代的2步過程。

認(rèn)知誤區(qū)

在他們看來,目前存在幾個(gè)認(rèn)知誤區(qū),得掰扯清楚

Agent ≠ 普通的生成式 AI

不要把換個(gè)system prompt的東西就叫做Agent

Agent 的“推理” ≠ 模型的“思維鏈

Agent 的“推理”,特指 LLM 選擇下一步要調(diào)用哪個(gè)工具、給什么參數(shù) 的決策過程。 而COT不涉及調(diào)用外部工具

Agent ≠ 簡單的 AI 工作流 (Workflow)

Agent 的核心在于,LLM 是在運(yùn)行時(shí)實(shí)時(shí)決策下一步調(diào)用哪個(gè)工具,具有更高的靈活性和自主性。

靈魂四問

當(dāng)我們面對(duì)一個(gè)號(hào)稱是 Agent 的系統(tǒng)時(shí),該如何去評(píng)估它的“含金量”呢?他們分享了靈魂四問分析框架~

一、這玩意兒真是 Agent 嗎?

回到上一步來看,它是否真的包含了 LLM 決策 + Tools 執(zhí)行 的核心循環(huán)?還是僅僅是套了個(gè) Agent 的殼,本質(zhì)上只是個(gè)普通的生成模型、CoT 或者預(yù)設(shè)流程?

二、自主Agent還是人機(jī)協(xié)作Agent?

它是想做全自動(dòng)的“自主 Agent”,還是人機(jī)協(xié)作的“協(xié)作 Agent”?

如果是前者,那就要極其嚴(yán)格地審視其魯棒性:它真的能在無人干預(yù)的情況下,穩(wěn)定可靠地完成目標(biāo)任務(wù)嗎?還是說只是個(gè)漂亮的 Demo?當(dāng)前的 LLM 技術(shù)水平真的支撐得起這種復(fù)雜度的自主運(yùn)行嗎?

三、基礎(chǔ)配置夠硬核嗎?

這部分是深入 Agent 內(nèi)部,看它的關(guān)鍵組件配置:

  • 它配備了哪些工具?這些工具本身的能力如何(比如,網(wǎng)頁搜索工具的效果好不好)?是否容易添加新的、自定義的工具?
  • 它用的是哪個(gè) LLM 作為推理核心?評(píng)估重點(diǎn)應(yīng)該是這個(gè)模型在工具調(diào)用和決策方面的表現(xiàn),而不是它在通用知識(shí)問答或?qū)懽魃系牡梅帧DP褪欠窨梢造`活替換?
  • 它能訪問哪些數(shù)據(jù)源?權(quán)限控制做得如何?對(duì)于特定類型的數(shù)據(jù)(如代碼),它是否有特殊的處理能力(比如 AST 解析)來更好地理解和利用信息?特別注意,Agentic 模式下,如果一次檢索效果不好,它可以決定再次檢索或換參數(shù)檢索,這與傳統(tǒng) RAG 的一次性檢索有很大不同。
  • (尤其對(duì)協(xié)作 Agent 而言)它能否捕捉到用戶沒有明說的意圖?比如通過分析用戶在 IDE 中打開的文件、最近的編輯、終端歷史、剪貼板內(nèi)容等,來更智能地推斷用戶想干什么?這能極大提升體驗(yàn)。

四、起來“爽”不“爽”?(User Experience)

技術(shù)再牛,最終還是要用戶用得爽。這關(guān)乎 Agent 的“軟實(shí)力”:

  • 跑起來快不快?一個(gè) Agent 吭哧癟肚搞半天還失敗了,和一個(gè)秒級(jí)響應(yīng)但可能需要你稍微引導(dǎo)一下的 Agent,哪個(gè)體驗(yàn)更好?延遲是自主 Agent 面臨的一大挑戰(zhàn),也是所有 Agent 都需要優(yōu)化的關(guān)鍵點(diǎn)。
  • 我能清楚地看到 Agent 每一步在干什么嗎?當(dāng)我發(fā)現(xiàn)它要跑偏時(shí),能不能方便地進(jìn)行引導(dǎo)或修正?(這是協(xié)作 Agent 的核心優(yōu)勢所在)
  • 調(diào)用它方便嗎?結(jié)果好用嗎?交互方式是否自然地融入了我的工作流?(比如,不只是一個(gè)聊天框,可能是一個(gè)按鈕、一個(gè)右鍵菜單等)
  • 是不是所有問題都非得用 Agent 來解決?對(duì)于某些簡單、直接的任務(wù),傳統(tǒng)的 Copilot 式工具(如代碼補(bǔ)全)是不是更快、更直接、效果更好?別拿著 Agent 這把錘子,看什么都像釘子。

The Bitter Lesson

windsurf還特地提到了一個(gè)苦澀教訓(xùn) (The Bitter Lesson)

長期來看,利用通用計(jì)算規(guī)模(更多算力、更大模型、更多數(shù)據(jù))帶來的性能提升,幾乎總是勝過依賴人類領(lǐng)域知識(shí)、精心設(shè)計(jì)的復(fù)雜規(guī)則或特征工程帶來的提升。

無論是計(jì)算機(jī)視覺、棋類游戲還是自然語言處理,歷史一再證明這一點(diǎn)。

對(duì) Agent 的啟示:警惕過度設(shè)計(jì)! 不要花費(fèi)過多精力去設(shè)計(jì)極其復(fù)雜的 Prompt、精巧的工具選擇邏輯或人為注入的領(lǐng)域知識(shí)。

因?yàn)殡S著模型能力不斷提升、算力成本持續(xù)下降,這些“捷徑”很可能被更強(qiáng)大的通用能力所淹沒。擁抱規(guī)模化、通用化的方法可能才是長久之計(jì)。

本文轉(zhuǎn)載自????探索AGI????,作者:獼猴桃

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲第一视频网 | 久久亚洲欧美日韩精品专区 | 99热这里有精品 | 亚洲国产一区二区在线 | 一区二区三区四区国产 | 久久91精品久久久久久9鸭 | 午夜激情视频在线 | 久久久久久久久淑女av国产精品 | 羞羞视频免费在线观看 | 欧美极品在线播放 | 国产精品视频免费观看 | 精品欧美一区二区在线观看 | 日韩波多野结衣 | а天堂中文最新一区二区三区 | 国产精品久久久久久久久久久免费看 | 三级免费av | 91 久久 | 国产精品污www一区二区三区 | 91xxx在线观看 | 成人免费一级视频 | 羞羞的视频免费在线观看 | 日本欧美视频 | 黄色在线播放视频 | 久久大陆 | 精品国产一区二区国模嫣然 | 欧美一级免费看 | 国产亚洲一区二区三区在线观看 | 国产高清视频在线 | 天天色天天射天天干 | 国产免费a | 欧美一区二区在线观看视频 | 国产精品中文字幕在线 | 在线免费av电影 | 怡红院成人在线视频 | 日韩一区二区在线看 | 亚洲精品乱码久久久久久按摩观 | 国产亚洲一区二区在线观看 | 97成人精品 | 91精品久久久久久久久久入口 | 久精品久久 | 国产亚洲精品久久久久久牛牛 |