成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM之后,Agent的未來是RL!

發布于 2025-1-23 09:19
瀏覽
1收藏

嘿,大家好!這里是一個專注于AI智能體的頻道~

今天給家人們聊一期播客總結,四十二章經最新一期播客請到了在Meta工作了七年的應用強化學習組負責人朱哲清Bill。作為斯坦福大學強化學習專業博士,現在創業做Agent的他,拋出了一個巨大的反共識觀點:

"LLM只是一個翻譯官,真正的Agent核心應該是RL。"

等等,這是什么意思?

在2024年,我們見證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構建Agent。

但Bill卻說,這條路走偏了?

并且,他用自己的技術路線,只花了不到1萬美金就訓練出了一個能在電商領域超越GPT-4的Agent。

這背后到底有什么玄機?

當前Agent的痛點

要理解Bill的觀點,我們先問自己一個問題:當前的Agent真的在"思考"嗎?

播客里邊給出了一個非常形象的類比:想象你在一個復雜的迷宮里。

如果是人類,會怎么做?

  • 分析當前位置
  • 嘗試不同路徑
  • 記住死胡同
  • 總結經驗教訓

但當前的LLM Agent呢?它就像一個只會背誦地圖的人:

  • ? 能說出每個路口的樣子
  • ? 能背誦所有可能的路徑
  • × 但不會從錯誤中學習
  • × 更不會優化自己的策略

這就是為什么你會發現:

Agent常常重復同樣的錯誤;遇到新情況就抓瞎;效率始終無法提升等等問題

平行宇宙思維

那RL是如何解決這個問題的?

這里有個有趣的概念:平行宇宙。

想象你在玩《王者榮耀》,每次決策都可以看到未來5分鐘會發生什么,這邊走會被抓,那邊走能拿龍 ,支援上路能贏團戰。

這就是RL的核心能力:

  • 并行模擬多個未來
  • 評估每個決策的收益
  • 選擇最優的行動路徑

就像,AlphaGo能在沒有人類棋譜的情況下,可以通過自我對弈達到超越人類的水平了;DeepSeek-R1最新的模型,沒有PRM(過程獎勵),沒有MCTS(蒙特卡洛),Zero模型可以直接開始RL,訓出來推理能力。

"翻譯官"LLM

這是不是意味著LLM就沒用了?

恰恰相反。

Bill提出了一個絕妙的比喻:LLM就像一個優秀的"翻譯官"。

想象你是一個天才的圍棋選手,但只會下棋,不會說話。你需要有人幫你理解對手的意圖,幫你表達想法。

這就是LLM的完美定位:

  • 輸入端:把人類語言轉換為RL可以理解的抽象狀態
  • 輸出端:把RL的決策轉換為人類可以理解的語言

最后

Bill預測,2025年會出現三個重要趨勢:

  • 專業領域的Agent會達到專業人士水平
  • 訓練成本會進一步降低
  • 應用場景會不斷擴大

但更重要的是,這個技術路線給了我們一個全新的視角:

也許,真正的AI智能體,應該像人類一樣:

  • 會在"平行宇宙"中規劃
  • 會從經驗中學習
  • 會不斷優化決策

本文轉載自??探索AGI??,作者: 獼猴桃 ????

標簽
收藏 1
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲国产精品视频一区 | 黑人巨大精品欧美一区二区免费 | 亚洲在线 | 在线日韩视频 | 三级黄色片在线观看 | 欧美日韩不卡 | 一区二区三区四区不卡视频 | 国产一区2区 | 久久精品国产一区二区电影 | 成人看片在线观看 | 九九九久久国产免费 | av黄色在线 | 99精品99| 精品一区二区久久久久久久网站 | 在线免费看黄 | 欧美精产国品一二三区 | 超碰高清| 欧美日韩在线一区二区三区 | 国产成人精品亚洲日本在线观看 | 日韩α片 | 在线观看中文字幕 | 日本精品免费 | 久久久久久久97 | 国产成人jvid在线播放 | 精品久久不卡 | 视频羞羞| 人人做人人澡人人爽欧美 | 在线免费观看a级片 | 欧美一级久久 | 精品91av| 亚洲国产欧美一区二区三区久久 | 亚洲免费在线 | 色视频在线观看 | 精品国产乱码久久久久久久久 | 国产一区在线免费观看视频 | 日韩在线小视频 | 日韩一区二区福利视频 | 天天天操| 综合色婷婷 | 久久99这里只有精品 | 无码国模国产在线观看 |