成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何改進(jìn)Agents的推理與規(guī)劃?

發(fā)布于 2024-7-26 11:45
瀏覽
0收藏

如果你詢問任何正在使用大型語言模型(LLM)構(gòu)建智能代理的開發(fā)者,他們很可能會(huì)告訴你,智能代理在規(guī)劃和推理方面的不足是影響其可靠性的一個(gè)主要問題。

  • 智能代理的規(guī)劃究竟是什么?
  • 目前人們是如何克服這一缺陷的?
  • 我們對(duì)智能代理未來規(guī)劃和推理的發(fā)展趨勢(shì)有何預(yù)測(cè)?

接下來的文章將一一解答這些問題。

編輯注:本文經(jīng)翻譯并二次整理自planning-for-agents一文。

規(guī)劃和推理的真正含義是什么?

智能代理的規(guī)劃和推理,指的是它如何思考并決定采取哪些行動(dòng),這既包括短期行動(dòng)也包括長(zhǎng)期行動(dòng)。LLM需要評(píng)估所有可用信息,然后決定需要采取哪些步驟,以及當(dāng)前應(yīng)該首先執(zhí)行哪一步。

大多數(shù)情況下,開發(fā)者會(huì)使用函數(shù)調(diào)用技術(shù)來讓LLM選擇要執(zhí)行的行動(dòng)。這項(xiàng)技術(shù)最初由OpenAI在2023年6月引入,隨后在2023年末至2024年初被其他公司采納。通過函數(shù)調(diào)用,開發(fā)者可以為不同的函數(shù)提供JSON格式的模式,并讓LLM生成符合這些模式的對(duì)象。

函數(shù)調(diào)用主要用于讓智能代理選擇立即要執(zhí)行的行動(dòng)。然而,要成功完成一個(gè)復(fù)雜的任務(wù),通常需要按照順序執(zhí)行一系列行動(dòng)。對(duì)于LLM來說,進(jìn)行長(zhǎng)期規(guī)劃和推理是一項(xiàng)更具挑戰(zhàn)性的任務(wù),原因有二:首先,LLM需要考慮一個(gè)長(zhǎng)期目標(biāo),然后迅速回到需要立即執(zhí)行的短期行動(dòng);其次,隨著智能代理執(zhí)行的行動(dòng)越來越多,這些行動(dòng)的結(jié)果會(huì)反饋給LLM,導(dǎo)致上下文窗口擴(kuò)大,可能會(huì)使LLM分心,影響其性能。

和LLM世界中的大多數(shù)事物一樣,很難準(zhǔn)確衡量當(dāng)前模型在規(guī)劃和推理方面的表現(xiàn)。有一些合理的基準(zhǔn)測(cè)試,比如Berkeley Function Calling Leaderboard,用于評(píng)估函數(shù)調(diào)用的能力。我們也進(jìn)行了一些研究,以評(píng)估多步驟應(yīng)用的效果。但最好的方法是為你的特定問題構(gòu)建一個(gè)評(píng)估集,并嘗試自己進(jìn)行評(píng)估。

??根據(jù)經(jīng)驗(yàn),我們可以得出一個(gè)普遍的結(jié)論:規(guī)劃和推理目前還沒有達(dá)到現(xiàn)實(shí)世界任務(wù)所需的水平。

如何改進(jìn)智能代理的規(guī)劃能力?

改進(jìn)智能代理規(guī)劃能力的一個(gè)簡(jiǎn)單方法是確保LLM擁有進(jìn)行合理規(guī)劃和推理所需的所有必要信息。雖然這聽起來很基礎(chǔ),但實(shí)際上,傳入LLM的提示往往沒有包含足夠的信息。增加一個(gè)檢索步驟或澄清提示指令,可以輕松地實(shí)現(xiàn)改進(jìn)。這就是為什么實(shí)際查看數(shù)據(jù)并了解LLM實(shí)際看到的內(nèi)容至關(guān)重要。

接下來,我建議你嘗試改變你的應(yīng)用程序的認(rèn)知架構(gòu)。這里所說的“認(rèn)知架構(gòu)”,指的是你的應(yīng)用程序用于推理的數(shù)據(jù)工程邏輯。你可以考慮兩種類型的認(rèn)知架構(gòu)來提高推理能力:通用認(rèn)知架構(gòu)和特定領(lǐng)域認(rèn)知架構(gòu)。

通用認(rèn)知架構(gòu)與特定領(lǐng)域認(rèn)知架構(gòu)

通用認(rèn)知架構(gòu)試圖以一種通用的方式實(shí)現(xiàn)更好的推理,可以應(yīng)用于任何任務(wù)。例如,“計(jì)劃和解決”架構(gòu),這篇論文提出了一種先制定計(jì)劃,然后執(zhí)行計(jì)劃中每個(gè)步驟的架構(gòu)。另一個(gè)例子是Reflexion架構(gòu),這篇論文探討了在智能代理完成任務(wù)后增加一個(gè)明確的“反思”步驟,以評(píng)估任務(wù)是否完成得當(dāng)。

盡管這些想法顯示出了一定的改進(jìn),但它們通常對(duì)于生產(chǎn)環(huán)境中的智能代理來說過于通用。相反,我們看到智能代理通常采用特定領(lǐng)域的認(rèn)識(shí)架構(gòu)。這通常體現(xiàn)在特定領(lǐng)域的分類/路由步驟、特定領(lǐng)域的驗(yàn)證步驟等方面。一些關(guān)于規(guī)劃和反思的通用思想可以在這里應(yīng)用,但它們通常是以特定領(lǐng)域的方式應(yīng)用的。

以AlphaCodium論文為例,它通過使用所謂的“流程工程”(談?wù)撜J(rèn)知架構(gòu)的另一種方式),實(shí)現(xiàn)了最先進(jìn)的性能。下面是一個(gè)他們使用的流程圖。

如何改進(jìn)Agents的推理與規(guī)劃?-AI.x社區(qū)AlphaCodium流程圖

這個(gè)流程非常特定于他們?cè)噲D解決的問題。他們告訴智能代理按步驟做什么 - 想出測(cè)試,然后想出解決方案,然后迭代更多的測(cè)試等。這種認(rèn)知架構(gòu)高度特定于領(lǐng)域 - 它不會(huì)幫助您寫文章,例如。

為什么特定領(lǐng)域認(rèn)知架構(gòu)如此有幫助?

我傾向于從兩個(gè)角度來看待這個(gè)問題。

首先:你可以將這視為向智能代理傳達(dá)它應(yīng)該做什么的另一種方法。你可以通過提示指令或在代碼中硬編碼特定的轉(zhuǎn)換來傳達(dá)指令。任何一個(gè)都是有效的!代碼是極好的傳達(dá)你想要發(fā)生的事情的方式。

其次:這本質(zhì)上是從我們作為工程師的角度,將規(guī)劃責(zé)任從LLM中移除。我們基本上是在說:“不用擔(dān)心規(guī)劃,LLM,我會(huì)為你做的!”當(dāng)然,我們并沒有從LLM中移除所有的規(guī)劃,因?yàn)槲覀內(nèi)匀灰笏谀承┣闆r下進(jìn)行一些規(guī)劃。

例如,讓我們回顧一下上面的AlphaCodium示例。流程中的步驟基本上是我們?yōu)長(zhǎng)LM做的規(guī)劃!我們告訴它首先編寫測(cè)試,然后編寫代碼,然后運(yùn)行測(cè)試等。這可能是作者認(rèn)為編寫軟件的好計(jì)劃。如果他們正在計(jì)劃如何解決一個(gè)問題,這就是他們會(huì)怎么做的。而不是在提示中告訴LLM - 它可能會(huì)忽略它,不理解它,沒有所有細(xì)節(jié) - 他們通過構(gòu)建特定領(lǐng)域的認(rèn)識(shí)架構(gòu)來告訴系統(tǒng)要做什么。

??我們看到的幾乎所有高級(jí)“智能代理”實(shí)際上都有一個(gè)非常特定領(lǐng)域和自定義的認(rèn)知架構(gòu)。

我們正在使用LangGraph使構(gòu)建這些自定義認(rèn)知架構(gòu)變得更容易。LangGraph的一個(gè)主要關(guān)注點(diǎn)是可控性。我們?cè)O(shè)計(jì)LangGraph非常低級(jí)和高度可控 - 這是因?yàn)槲覀兛吹竭@種可控性是100%需要?jiǎng)?chuàng)建可靠的自定義認(rèn)知架構(gòu)。

規(guī)劃和推理的未來會(huì)是什么樣子?

LLM領(lǐng)域一直在迅速變化和發(fā)展,我們?cè)跇?gòu)建應(yīng)用程序時(shí),尤其是構(gòu)建工具時(shí),應(yīng)該牢記這一點(diǎn)。

我目前的立場(chǎng)是,通用推理將越來越多地被吸收到模型層中。模型將變得越來越智能,無論是通過規(guī)模還是研究突破 - 似乎很愚蠢去反對(duì)這一點(diǎn)。模型也會(huì)變得更快,更便宜,所以將大量上下文傳遞給它們將變得越來越可行。

然而,我相信無論模型變得多么強(qiáng)大,你總是需要以某種形式向智能代理傳達(dá)它應(yīng)該做什么。因此,我相信提示和自定義架構(gòu)將一直存在。對(duì)于簡(jiǎn)單任務(wù),提示可能就足夠了。對(duì)于更復(fù)雜的任務(wù),您可能希望將它應(yīng)該如何行為的邏輯放在代碼中。代碼優(yōu)先方法可能更快,更可靠,更易于調(diào)試,并且通常更容易/更符合邏輯地表達(dá)。

我最近在播客上與Sequoia的Sonya和Pat討論了這個(gè)話題。他們畫了一個(gè)很好的圖表,展示了提示、認(rèn)知架構(gòu)和模型的角色/重要性可能如何隨時(shí)間演變。

如何改進(jìn)Agents的推理與規(guī)劃?-AI.x社區(qū)圖片

所以,盡管LLM的規(guī)劃和推理肯定會(huì)變得更好,我們也堅(jiān)信,如果您正在構(gòu)建特定任務(wù)的智能代理,那么您將需要構(gòu)建一個(gè)自定義認(rèn)知架構(gòu)。

本文轉(zhuǎn)載自 ??AI小智??,作者: AI小智

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品777一区二区 | 午夜精品久久久 | 久久av在线播放 | 婷婷中文字幕 | 国产精品欧美一区二区三区不卡 | 久久99精品久久久久久琪琪 | 欧美成人激情 | 亚洲国产成人精品久久 | 亚洲精品一区在线观看 | 久久国产精品一区二区三区 | 91视频网址 | 国产区在线免费观看 | 亚洲国产一区二区三区, | 免费三级av | 欧美一区二区三区一在线观看 | 日本黄色免费大片 | 亚洲视频自拍 | 99这里只有精品视频 | av日韩高清 | 久久成人一区 | 国外成人在线视频 | 黑人精品欧美一区二区蜜桃 | 黄色网址大全在线观看 | 日韩精品一区二区三区四区视频 | 国产精品免费在线 | 色屁屁在线观看 | 久久精品综合 | 日韩高清不卡 | 久草欧美 | 夜夜爽99久久国产综合精品女不卡 | av黄色在线 | 精品久| 欧美日韩精品一区二区三区四区 | 欧美成人一区二区三区 | 在线一区二区观看 | 国产高清免费在线 | 欧美一区二区另类 | 九九九视频 | 精品久久久久久久 | 手机在线观看av | 中文字幕在线视频免费观看 |