成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟華人團隊最新研究:從LLM到LAM,讓大模型真正具有「行動力」!

人工智能 新聞
AI大模型正從僅會聊天的LLM進化為能夠執(zhí)行任務(wù)的大型行動模型LAM。它不僅能理解用戶的指令,還能在軟件環(huán)境中自主執(zhí)行任務(wù)。

LLM只能針對問題進行回答與分析?這種「隔靴搔癢」的體驗也許就要被終結(jié)了!

最近,微軟推出了一項名為「大型行動模型」(Large Aciton Model,LAM)的創(chuàng)新技術(shù),標(biāo)志著大模型從語言理解向?qū)嶋H執(zhí)行任務(wù)的轉(zhuǎn)變。

與傳統(tǒng)的LLM不同,LAM不僅能理解用戶的自然語言指令,還能將這些指令轉(zhuǎn)化為具體的行動步驟,在軟件環(huán)境中自主執(zhí)行文檔編輯、表格處理等任務(wù)。

雖然這實際上并不是一個全新的概念,但LAM是首款能夠操作Microsoft Office來執(zhí)行任務(wù)的模型。

圖片

論文鏈接:https://arxiv.org/pdf/2412.10047

不同于GPT-4o等負(fù)責(zé)處理和生成文本的傳統(tǒng)語言模型,LAM可以將用戶請求轉(zhuǎn)化為實際操作。

例如同樣是給一個男人買夾克,LLM只能給出文本步驟,而LAM卻可以直接像女朋友一樣挑選款式并網(wǎng)購。

圖片

哪個更加有實際效用,這就自不必多說了。畢竟誰不想有個能直接替自己去解決一些生活瑣碎的「分身」呢?

LAM能夠理解用戶通過文本、語音或圖像等各種輸入方式表達的需求,并將這些需求轉(zhuǎn)化為詳細(xì)的逐步計劃。

執(zhí)行過程中,LAM能將復(fù)雜的任務(wù)分解為多個子任務(wù),根據(jù)實時情況調(diào)整其行動策略,以應(yīng)對執(zhí)行過程中的意外情況。

此外,LAM還能自主探索與學(xué)習(xí),獨立探索新的解決方案。

讓LLM行動起來

LAM通常建立在LLM的基礎(chǔ)上,但是從LLM到LAM的過渡卻并沒那么容易,如下圖所示。

圖片

從LLM到LAM的轉(zhuǎn)變

將LLM轉(zhuǎn)化為功能性LAM的過程涉及多個復(fù)雜的階段,每個階段都需要大量的努力與專業(yè)知識。

首先需要利用LLM來處理用戶數(shù)據(jù)集,并生成對應(yīng)的文本輸出,將任務(wù)分解為行動與相應(yīng)的計劃。

經(jīng)過微調(diào)之后,接受了任務(wù)要求的LAM就能輸出對應(yīng)的文本格式的行動輸出。

最后將其輸出反饋給智能體,讓其與環(huán)境不斷地實時交互。

如何開發(fā)LAM?

既然LAM能夠為我們執(zhí)行任務(wù),化為我們的「分身」來幫我們與世界互動,那么如何開發(fā)與部署LAM就是一個關(guān)鍵的問題。

LAM的訓(xùn)練過程包括以下關(guān)鍵步驟:

1. 任務(wù)分解與規(guī)劃:模型首先學(xué)習(xí)將任務(wù)分解為邏輯步驟,并生成詳細(xì)的執(zhí)行計劃。

2. 行動生成與執(zhí)行:將用戶意圖轉(zhuǎn)化為具體的行動指令,包括圖形用戶界面操作、API調(diào)用等。

3. 動態(tài)調(diào)整與優(yōu)化:在執(zhí)行過程中,LAM能根據(jù)反饋調(diào)整其行動策略,以提高成功率和效率。

4. 從獎勵機制學(xué)習(xí):通過獎勵機制進行微調(diào)訓(xùn)練,進一步優(yōu)化模型的性能。

圖片

階段1:任務(wù)分解與規(guī)劃

在初始階段,模型將任務(wù)分解為邏輯步驟。

研究人員以Mistral-7B作為基礎(chǔ)模型,收集了來自多個來源的76,672個任務(wù)-計劃對(???? , ????),包括應(yīng)用幫助文檔、WikiHow和歷史搜索查詢。

在此階段不會生成具體的行動,但模型獲得了強大的規(guī)劃能力,為后續(xù)的動作執(zhí)行提供了重要基礎(chǔ)。

階段2:行動生成與執(zhí)行

在此階段,作者引入了由GPT-4o標(biāo)注的任務(wù)-動作軌跡,讓LAM向先進的AI模型GPT-4o學(xué)習(xí)。

將學(xué)習(xí)到的任務(wù)規(guī)劃轉(zhuǎn)化為可執(zhí)行的動作,從GPT-4o的成功經(jīng)驗中汲取知識和策略,更好地理解和處理復(fù)雜任務(wù)。

本文中的示例應(yīng)用是Microsoft Word,在該環(huán)境下共收集了2,192個成功的專家軌跡。每個軌跡由一系列狀態(tài)-動作對(???? , ????)組成。通過對這些成功的行動序列進行學(xué)習(xí),我們獲得了LAM2

階段3:動態(tài)調(diào)整與優(yōu)化

之后,我們讓模型嘗試解決GPT-4o失敗的任務(wù),通過ReAct機制與環(huán)境進行交互。

首先從GPT-4o失敗的任務(wù)中采樣2,284個任務(wù),并收集了LAM2生成的496個成功軌跡,將這些數(shù)據(jù)與2,192個GPT-4o成功軌跡相結(jié)合,形成了一個增強數(shù)據(jù)集。

在這一階段,LAM會自主探索新的解決方案,嘗試解決那些曾難倒其他AI系統(tǒng)的問題,拓展自身能力邊界,增強對不同任務(wù)和場景的適應(yīng)性。

階段4:從獎勵機制中學(xué)習(xí)

盡管模型在前述階段有所改進,但未能充分利用失敗所帶來的學(xué)習(xí)機會。

因此,論文引入了強化學(xué)習(xí)來解決這些問題。通過基于獎勵的訓(xùn)練對系統(tǒng)進行微調(diào),根據(jù)模型執(zhí)行任務(wù)的結(jié)果給予相應(yīng)的獎勵或懲罰,引導(dǎo)模型不斷優(yōu)化行為策略,以達到更好的效果。

可以看到,訓(xùn)練LAM的過程包括四個步驟:首先,模型學(xué)習(xí)如何將任務(wù)分解為邏輯步驟。其次,通過先進的AI系統(tǒng)(如GPT-4o)學(xué)習(xí)如何將計劃轉(zhuǎn)化為具體行動。然后,LAM會獨立探索新的解決方案。最后,通過獎勵機制進行微調(diào)訓(xùn)練。

表中總結(jié)了每個階段使用的訓(xùn)練數(shù)據(jù)。

圖片

LAM數(shù)據(jù)收集與構(gòu)建

眾所周知,數(shù)據(jù)是訓(xùn)練LLM的基石。類似地,LAM在監(jiān)督微調(diào)階段也需要經(jīng)過精心準(zhǔn)備的以行動為導(dǎo)向的高質(zhì)量數(shù)據(jù)。

因此研究者采用了兩階段的數(shù)據(jù)收集:任務(wù)-計劃數(shù)據(jù)和任務(wù)-行動數(shù)據(jù),如下圖所示。

圖片

任務(wù)-計劃數(shù)據(jù):在這一階段,研究者收集包含任務(wù)和對應(yīng)計劃的數(shù)據(jù)。

任務(wù)是用自然語言表達的用戶請求,而計劃是為完成這些任務(wù)而設(shè)計的詳細(xì)步驟。例如,「如何在Word中更改字體大小?」會有一個對應(yīng)的計劃,概述完成該任務(wù)所需的步驟。

這些數(shù)據(jù)用于微調(diào)模型,以生成有效的計劃,并提升其高層次的推理和規(guī)劃能力。

圖片

構(gòu)建任務(wù)-計劃數(shù)據(jù)的流程

任務(wù)-行動數(shù)據(jù):在這一階段,任務(wù)-計劃數(shù)據(jù)被轉(zhuǎn)換為任務(wù)-行動數(shù)據(jù),包括任務(wù)、計劃和執(zhí)行這些計劃所需的相應(yīng)動作序列。任務(wù)和計劃被細(xì)化為更具體且能夠在特定環(huán)境中執(zhí)行的內(nèi)容。

圖片

構(gòu)建任務(wù)-行動數(shù)據(jù)的流程

經(jīng)過上述圖中的4個處理步驟后,最終生成的動作序列類似于:

select_text(text="hello")

或者是

click(notallow=Button("20"), how="left", double=False)

也就是能夠直接與環(huán)境交互的可執(zhí)行指令。

總的來說,任務(wù)-計劃數(shù)據(jù)旨在增強模型的高層次規(guī)劃能力,使其能夠根據(jù)用戶請求生成詳細(xì)的逐步計劃。

而任務(wù)-行動數(shù)據(jù)則側(cè)重于通過將每個計劃步驟轉(zhuǎn)化為具體、可執(zhí)行的步驟或序列,從而賦予模型執(zhí)行這些計劃的能力,并能接受環(huán)境的實時反饋。

數(shù)據(jù)收集和準(zhǔn)備流程確保模型能夠同時進行高層次規(guī)劃和低層次行動執(zhí)行,從而彌合了LLM生成計劃與能夠采取可執(zhí)行行動之間的差距。

LAM的在線評估

我們將訓(xùn)練完成的LAM集成到GUI智能體UFO中,使模型預(yù)測的行動能夠在Windows操作系統(tǒng)中有效執(zhí)行,并與環(huán)境進行交互。

UFO智能體通過接受自然語言的用戶請求,并與Windows應(yīng)用程序的UI控件進行互動,完成具體任務(wù)。

圖片

我們采用以下指標(biāo)對 LAM 的性能進行全面評估:

1. 任務(wù)成功率(Task Success Rate, TSR): 成功完成任務(wù)的數(shù)量占嘗試總?cè)蝿?wù)數(shù)量的百分比。

2. 任務(wù)完成時間: 從初始請求到最終動作完成的總時間。

3. 任務(wù)完成步驟: 智能體成功完成每個任務(wù)所執(zhí)行的總動作步驟數(shù)量。

4. 平均步驟延遲: 每個動作步驟的平均耗時。

圖片

LAM在Word測試環(huán)境中的成功率為71%,而GPT-4o在無視覺信息輸入的情況下,成功率為63%。

此外,LAM的執(zhí)行速度也更快,每個任務(wù)僅需30秒,而GPT-4o則需要86秒,是LAM的2.8倍。

實驗結(jié)果突顯了LAM作為僅使用文本的模型的優(yōu)勢,使LAM成為實際應(yīng)用中有效的解決方案。

未來展望

LAM的推出為辦公自動化、復(fù)雜任務(wù)處理等領(lǐng)域帶來了新的可能性。例如,在Microsoft Office中,LAM可以自動執(zhí)行文檔編輯、表格處理等任務(wù),極大地提高工作效率。此外,LAM還有潛力在更多領(lǐng)域發(fā)揮重要作用。

LAM展示了其發(fā)展?jié)摿Γ谏虡I(yè)化落地中仍然面臨一些挑戰(zhàn),例如,控制機器人系統(tǒng)的LAM可能會誤解指令并導(dǎo)致?lián)p害;金融或醫(yī)療應(yīng)用中如果執(zhí)行錯誤動作,可能帶來嚴(yán)重的后果。

然而,研究人員相信,LAM代表了AI發(fā)展的一次重要轉(zhuǎn)變,預(yù)示著AI助手將能更積極地協(xié)助人類完成實際任務(wù)。

行動勝于言辭

LAM的推出標(biāo)志著人工智能從語言理解向任務(wù)執(zhí)行的轉(zhuǎn)變,開啟了AI自主的新時代。從生成語言到執(zhí)行具體動作,大模型將能在現(xiàn)實世界中產(chǎn)生直接影響,這是邁向AGI的關(guān)鍵一步。

未來,隨著技術(shù)的不斷發(fā)展,LAM將在更多領(lǐng)域發(fā)揮重要作用,為我們的生活和工作帶來更多便利和驚喜。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-12-13 13:24:44

AI技術(shù)

2024-04-11 07:10:59

大語言模型AI人工智能

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2023-04-24 16:25:47

3D開發(fā)

2023-11-13 14:54:47

人工智能LoRAShear語言模型模型

2023-10-07 13:16:40

ChatGPT神經(jīng)元模型

2025-05-27 01:27:00

LLM大模型數(shù)學(xué)推理

2023-12-18 15:00:00

模型數(shù)據(jù)

2025-04-08 02:22:00

2024-05-28 09:24:32

2025-01-22 09:00:00

2024-04-18 12:16:37

MetaAIOpenEQA

2023-06-05 10:01:18

模型測評

2023-08-09 07:04:17

清華微軟LLM

2024-01-29 09:40:00

AI訓(xùn)練

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2023-09-12 14:45:18

2021-01-15 14:37:38

大數(shù)據(jù)數(shù)據(jù)中心新基建

2024-06-28 16:03:38

2024-11-11 17:16:44

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 黄片毛片 | www.99re| 毛片国产 | 国产欧美一区二区三区国产幕精品 | 国产精品视频在 | 男女羞羞视频免费 | 欧美vide| 爱爱视频在线观看 | 涩涩视频大全 | 久久久久久久久99 | 日韩视频一区在线观看 | 精品一二区 | 亚洲三区视频 | 亚洲乱码一区二区三区在线观看 | 国产成人在线视频播放 | 日韩三区在线 | 日本一区二区不卡 | 在线亚洲电影 | www.性色 | 瑞克和莫蒂第五季在线观看 | 另类a v| 欧美精品一区二区三区四区 在线 | 奇米av| 久久久精品一区 | 99精品在线观看 | 在线观看亚洲专区 | 久久久久久国产精品免费免费男同 | 久久国产精品一区二区三区 | 日韩精品一区中文字幕 | 日本三级做a全过程在线观看 | 精品中文字幕一区 | 国产精品久久久久久久久久久新郎 | 午夜精品一区二区三区在线视 | 在线国产一区二区 | 羞羞在线观看视频 | 黄视频网站免费观看 | 99久久婷婷| 妹子干综合 | 99综合| 日本免费一区二区三区四区 | 免费黄视频网站 |