微軟華人團隊最新研究：從LLM到LAM，讓大模型真正具有「行動力」！

作者：新智元 2025-01-14 13:04:08

人工智能新聞

AI大模型正從僅會聊天的LLM進化為能夠執(zhí)行任務(wù)的大型行動模型LAM。它不僅能理解用戶的指令，還能在軟件環(huán)境中自主執(zhí)行任務(wù)。

LLM只能針對問題進行回答與分析?這種「隔靴搔癢」的體驗也許就要被終結(jié)了！

最近，微軟推出了一項名為「大型行動模型」（Large Aciton Model，LAM）的創(chuàng)新技術(shù)，標(biāo)志著大模型從語言理解向?qū)嶋H執(zhí)行任務(wù)的轉(zhuǎn)變。

與傳統(tǒng)的LLM不同，LAM不僅能理解用戶的自然語言指令，還能將這些指令轉(zhuǎn)化為具體的行動步驟，在軟件環(huán)境中自主執(zhí)行文檔編輯、表格處理等任務(wù)。

雖然這實際上并不是一個全新的概念，但LAM是首款能夠操作Microsoft Office來執(zhí)行任務(wù)的模型。

論文鏈接：https://arxiv.org/pdf/2412.10047

不同于GPT-4o等負(fù)責(zé)處理和生成文本的傳統(tǒng)語言模型，LAM可以將用戶請求轉(zhuǎn)化為實際操作。

例如同樣是給一個男人買夾克，LLM只能給出文本步驟，而LAM卻可以直接像女朋友一樣挑選款式并網(wǎng)購。

哪個更加有實際效用，這就自不必多說了。畢竟誰不想有個能直接替自己去解決一些生活瑣碎的「分身」呢？

LAM能夠理解用戶通過文本、語音或圖像等各種輸入方式表達的需求，并將這些需求轉(zhuǎn)化為詳細(xì)的逐步計劃。

執(zhí)行過程中，LAM能將復(fù)雜的任務(wù)分解為多個子任務(wù)，根據(jù)實時情況調(diào)整其行動策略，以應(yīng)對執(zhí)行過程中的意外情況。

此外，LAM還能自主探索與學(xué)習(xí)，獨立探索新的解決方案。

讓LLM行動起來

LAM通常建立在LLM的基礎(chǔ)上，但是從LLM到LAM的過渡卻并沒那么容易，如下圖所示。

從LLM到LAM的轉(zhuǎn)變

將LLM轉(zhuǎn)化為功能性LAM的過程涉及多個復(fù)雜的階段，每個階段都需要大量的努力與專業(yè)知識。

首先需要利用LLM來處理用戶數(shù)據(jù)集，并生成對應(yīng)的文本輸出，將任務(wù)分解為行動與相應(yīng)的計劃。

經(jīng)過微調(diào)之后，接受了任務(wù)要求的LAM就能輸出對應(yīng)的文本格式的行動輸出。

最后將其輸出反饋給智能體，讓其與環(huán)境不斷地實時交互。

如何開發(fā)LAM？

既然LAM能夠為我們執(zhí)行任務(wù)，化為我們的「分身」來幫我們與世界互動，那么如何開發(fā)與部署LAM就是一個關(guān)鍵的問題。

LAM的訓(xùn)練過程包括以下關(guān)鍵步驟：

1. 任務(wù)分解與規(guī)劃：模型首先學(xué)習(xí)將任務(wù)分解為邏輯步驟，并生成詳細(xì)的執(zhí)行計劃。

2. 行動生成與執(zhí)行：將用戶意圖轉(zhuǎn)化為具體的行動指令，包括圖形用戶界面操作、API調(diào)用等。

3. 動態(tài)調(diào)整與優(yōu)化：在執(zhí)行過程中，LAM能根據(jù)反饋調(diào)整其行動策略，以提高成功率和效率。

4. 從獎勵機制學(xué)習(xí)：通過獎勵機制進行微調(diào)訓(xùn)練，進一步優(yōu)化模型的性能。

階段1：任務(wù)分解與規(guī)劃

在初始階段，模型將任務(wù)分解為邏輯步驟。

研究人員以Mistral-7B作為基礎(chǔ)模型，收集了來自多個來源的76,672個任務(wù)-計劃對(???? , ????)，包括應(yīng)用幫助文檔、WikiHow和歷史搜索查詢。

在此階段不會生成具體的行動，但模型獲得了強大的規(guī)劃能力，為后續(xù)的動作執(zhí)行提供了重要基礎(chǔ)。

階段2：行動生成與執(zhí)行

在此階段，作者引入了由GPT-4o標(biāo)注的任務(wù)-動作軌跡，讓LAM向先進的AI模型GPT-4o學(xué)習(xí)。

將學(xué)習(xí)到的任務(wù)規(guī)劃轉(zhuǎn)化為可執(zhí)行的動作，從GPT-4o的成功經(jīng)驗中汲取知識和策略，更好地理解和處理復(fù)雜任務(wù)。

本文中的示例應(yīng)用是Microsoft Word，在該環(huán)境下共收集了2,192個成功的專家軌跡。每個軌跡由一系列狀態(tài)-動作對(???? , ????)組成。通過對這些成功的行動序列進行學(xué)習(xí)，我們獲得了LAM²。

階段3：動態(tài)調(diào)整與優(yōu)化

之后，我們讓模型嘗試解決GPT-4o失敗的任務(wù)，通過ReAct機制與環(huán)境進行交互。

首先從GPT-4o失敗的任務(wù)中采樣2,284個任務(wù)，并收集了LAM²生成的496個成功軌跡，將這些數(shù)據(jù)與2,192個GPT-4o成功軌跡相結(jié)合，形成了一個增強數(shù)據(jù)集。

在這一階段，LAM會自主探索新的解決方案，嘗試解決那些曾難倒其他AI系統(tǒng)的問題，拓展自身能力邊界，增強對不同任務(wù)和場景的適應(yīng)性。

階段4：從獎勵機制中學(xué)習(xí)

盡管模型在前述階段有所改進，但未能充分利用失敗所帶來的學(xué)習(xí)機會。

因此，論文引入了強化學(xué)習(xí)來解決這些問題。通過基于獎勵的訓(xùn)練對系統(tǒng)進行微調(diào)，根據(jù)模型執(zhí)行任務(wù)的結(jié)果給予相應(yīng)的獎勵或懲罰，引導(dǎo)模型不斷優(yōu)化行為策略，以達到更好的效果。

可以看到，訓(xùn)練LAM的過程包括四個步驟：首先，模型學(xué)習(xí)如何將任務(wù)分解為邏輯步驟。其次，通過先進的AI系統(tǒng)（如GPT-4o）學(xué)習(xí)如何將計劃轉(zhuǎn)化為具體行動。然后，LAM會獨立探索新的解決方案。最后，通過獎勵機制進行微調(diào)訓(xùn)練。

表中總結(jié)了每個階段使用的訓(xùn)練數(shù)據(jù)。

LAM數(shù)據(jù)收集與構(gòu)建

眾所周知，數(shù)據(jù)是訓(xùn)練LLM的基石。類似地，LAM在監(jiān)督微調(diào)階段也需要經(jīng)過精心準(zhǔn)備的以行動為導(dǎo)向的高質(zhì)量數(shù)據(jù)。

因此研究者采用了兩階段的數(shù)據(jù)收集：任務(wù)-計劃數(shù)據(jù)和任務(wù)-行動數(shù)據(jù)，如下圖所示。

任務(wù)-計劃數(shù)據(jù)：在這一階段，研究者收集包含任務(wù)和對應(yīng)計劃的數(shù)據(jù)。

任務(wù)是用自然語言表達的用戶請求，而計劃是為完成這些任務(wù)而設(shè)計的詳細(xì)步驟。例如，「如何在Word中更改字體大小？」會有一個對應(yīng)的計劃，概述完成該任務(wù)所需的步驟。

這些數(shù)據(jù)用于微調(diào)模型，以生成有效的計劃，并提升其高層次的推理和規(guī)劃能力。

構(gòu)建任務(wù)-計劃數(shù)據(jù)的流程

任務(wù)-行動數(shù)據(jù)：在這一階段，任務(wù)-計劃數(shù)據(jù)被轉(zhuǎn)換為任務(wù)-行動數(shù)據(jù)，包括任務(wù)、計劃和執(zhí)行這些計劃所需的相應(yīng)動作序列。任務(wù)和計劃被細(xì)化為更具體且能夠在特定環(huán)境中執(zhí)行的內(nèi)容。

構(gòu)建任務(wù)-行動數(shù)據(jù)的流程

經(jīng)過上述圖中的4個處理步驟后，最終生成的動作序列類似于：

select_text(text="hello")

或者是

click(notallow=Button("20"), how="left", double=False)

也就是能夠直接與環(huán)境交互的可執(zhí)行指令。

總的來說，任務(wù)-計劃數(shù)據(jù)旨在增強模型的高層次規(guī)劃能力，使其能夠根據(jù)用戶請求生成詳細(xì)的逐步計劃。

而任務(wù)-行動數(shù)據(jù)則側(cè)重于通過將每個計劃步驟轉(zhuǎn)化為具體、可執(zhí)行的步驟或序列，從而賦予模型執(zhí)行這些計劃的能力，并能接受環(huán)境的實時反饋。

數(shù)據(jù)收集和準(zhǔn)備流程確保模型能夠同時進行高層次規(guī)劃和低層次行動執(zhí)行，從而彌合了LLM生成計劃與能夠采取可執(zhí)行行動之間的差距。

LAM的在線評估

我們將訓(xùn)練完成的LAM集成到GUI智能體UFO中，使模型預(yù)測的行動能夠在Windows操作系統(tǒng)中有效執(zhí)行，并與環(huán)境進行交互。

UFO智能體通過接受自然語言的用戶請求，并與Windows應(yīng)用程序的UI控件進行互動，完成具體任務(wù)。

我們采用以下指標(biāo)對 LAM 的性能進行全面評估：

1. 任務(wù)成功率（Task Success Rate, TSR）: 成功完成任務(wù)的數(shù)量占嘗試總?cè)蝿?wù)數(shù)量的百分比。

2. 任務(wù)完成時間: 從初始請求到最終動作完成的總時間。

3. 任務(wù)完成步驟: 智能體成功完成每個任務(wù)所執(zhí)行的總動作步驟數(shù)量。

4. 平均步驟延遲: 每個動作步驟的平均耗時。

LAM在Word測試環(huán)境中的成功率為71%，而GPT-4o在無視覺信息輸入的情況下，成功率為63%。

此外，LAM的執(zhí)行速度也更快，每個任務(wù)僅需30秒，而GPT-4o則需要86秒，是LAM的2.8倍。

實驗結(jié)果突顯了LAM作為僅使用文本的模型的優(yōu)勢，使LAM成為實際應(yīng)用中有效的解決方案。

未來展望

LAM的推出為辦公自動化、復(fù)雜任務(wù)處理等領(lǐng)域帶來了新的可能性。例如，在Microsoft Office中，LAM可以自動執(zhí)行文檔編輯、表格處理等任務(wù)，極大地提高工作效率。此外，LAM還有潛力在更多領(lǐng)域發(fā)揮重要作用。

LAM展示了其發(fā)展?jié)摿Γ谏虡I(yè)化落地中仍然面臨一些挑戰(zhàn)，例如，控制機器人系統(tǒng)的LAM可能會誤解指令并導(dǎo)致?lián)p害；金融或醫(yī)療應(yīng)用中如果執(zhí)行錯誤動作，可能帶來嚴(yán)重的后果。

然而，研究人員相信，LAM代表了AI發(fā)展的一次重要轉(zhuǎn)變，預(yù)示著AI助手將能更積極地協(xié)助人類完成實際任務(wù)。

行動勝于言辭

LAM的推出標(biāo)志著人工智能從語言理解向任務(wù)執(zhí)行的轉(zhuǎn)變，開啟了AI自主的新時代。從生成語言到執(zhí)行具體動作，大模型將能在現(xiàn)實世界中產(chǎn)生直接影響，這是邁向AGI的關(guān)鍵一步。

未來，隨著技術(shù)的不斷發(fā)展，LAM將在更多領(lǐng)域發(fā)揮重要作用，為我們的生活和工作帶來更多便利和驚喜。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看