成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟提出變色龍框架,讓模型自帶工具箱開掛,數(shù)學(xué)推理任務(wù)準(zhǔn)確率98%

人工智能
Chameleon模型通過其簡單高效的框架,實(shí)現(xiàn)了大型語言模型與多種外部工具的高效協(xié)同,從而顯著增強(qiáng)了在復(fù)雜任務(wù)上的推理能力。在大型語言模型的工具增強(qiáng)領(lǐng)域,未來有許多潛在的發(fā)展方向。

教大模型調(diào)用工具,已經(jīng)是AI圈關(guān)注度最高的話題之一了。

這不,又有一項(xiàng)研究登上最新NeurIPS 2023——

它是一個(gè)叫做Chameleon(變色龍)的框架,號稱能將大語言模型直接變成魔法師的工具箱,來自微軟與加州大學(xué)洛杉磯分校(UCLA)。

相比其它模型,Chameleon一方面能調(diào)用的工具豐富,包括大型語言模型、視覺識(shí)別模型、網(wǎng)絡(luò)搜索引擎、Python編程功能以及基于規(guī)則的模塊都能搞定。

圖片圖片

另一方面,性能也更好。

在科學(xué)問答任務(wù)ScienceQA和表格數(shù)學(xué)推理任務(wù)TabMWP中,Chameleon的準(zhǔn)確率分別達(dá)到了86.54%和98.78%,在這兩個(gè)領(lǐng)域都顯著超過了目前相同設(shè)定的最佳模型。

事實(shí)上,被頂會(huì)收錄前,Chameleon推理框架已經(jīng)成為了科技社區(qū)的焦點(diǎn)。短短半年內(nèi),其在GitHub上的項(xiàng)目獲得了近1000次的星標(biāo),同時(shí),已有近100篇學(xué)術(shù)論文引用了這一框架。

圖片

在眾多AI相關(guān)的論文中,Chameleon更是脫穎而出,在1682篇文章中被評為AlphaSignal的周最佳論文。

圖片圖片

此外,在YouTube上關(guān)于Chameleon的深度解讀視頻,也吸引了超過1萬次的觀看。

圖片圖片

一起來看看這究竟是個(gè)什么框架。

源自變色龍的靈感

在實(shí)際應(yīng)用中,我們經(jīng)常會(huì)面臨各種類型和領(lǐng)域的不同工具,比如來自Hugging Face和GitHub的開源模型、像谷歌和必應(yīng)這樣的網(wǎng)絡(luò)搜索服務(wù)、維基百科等知識(shí)庫、生成式人工智能模型、Python函數(shù)、語言翻譯和圖像生成等等。

一個(gè)引人注目的問題是:

如何將這些多樣的工具與大型語言模型相結(jié)合,以解決復(fù)雜的任務(wù)。

答案就在于工具增強(qiáng)(Tool-Augmented)的大型語言模型或大型語言模型代理(LLM Agent)!

通過規(guī)劃和整合多個(gè)工具和資源到大型語言模型框架中,可以創(chuàng)建一個(gè)更加多功能和強(qiáng)大的系統(tǒng),以便處理各種領(lǐng)域的復(fù)雜任務(wù)。

因此,微軟和UCLA的研究人員提出了Chameleon-變色龍推理框架。

Chameleon的靈感來自自然界中的變色龍,就像變色龍能夠通過改變皮膚顏色來適應(yīng)周圍環(huán)境一樣,Chameleon模型可以根據(jù)不同的輸入問題,組合和使用各種不同的工具來完成相應(yīng)的復(fù)雜推理。

例如,在解決多模態(tài)任務(wù)ScienceQA時(shí),Chameleon模型會(huì)為不同的問題生成不同的程序,以靈活組合各種工具,并按照一定的順序執(zhí)行它們,從而最終得出答案。這種靈活性和適應(yīng)性使Chameleon成為解決復(fù)雜任務(wù)的強(qiáng)大工具。

圖片圖片

Chameleon模型與相關(guān)工作的比較

與相關(guān)工作相比,Chameleon模型在工具多樣性和調(diào)用靈活性方面具有顯著優(yōu)勢。

首先,Chameleon支持LLM模型、視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)以及基于規(guī)則的模塊,這些不同工具之間能夠通過自然語言進(jìn)行通信。

與此不同,已有的工作如Toolformer僅支持少量工具,如問答、計(jì)算器、機(jī)器翻譯、WikiSearch和日歷查詢,而HuggingGPT僅適用于視覺處理相關(guān)的模型。

其次,Chameleon模型允許以類似自然語言的方式生成不同工具的調(diào)用組合,無需設(shè)計(jì)復(fù)雜格式的程序。

而在已有的工作中,如ViperGPT,則需要生成精心設(shè)計(jì)、符合特定格式的Python代碼,這對編程水平有限的用戶來說并不友好。

圖片圖片

基于LLM的工具規(guī)劃器

Chameleon模型與以往方法的不同之處在于其能夠合成各種工具的組合,以適應(yīng)不同類型的推理問題。

該模型由兩個(gè)主要組成部分構(gòu)成:工具箱(Module Inventory)和LLM規(guī)劃器(LLM Planner)。工具箱包含了多種工具,使Chameleon模型具備了多樣性和多維度的推理能力。

LLM規(guī)劃器基于大型語言模型實(shí)現(xiàn),可以根據(jù)不同的輸入問題生成自然語言形式的程序,從而實(shí)現(xiàn)對工具箱中的工具進(jìn)行組合和調(diào)用。

圖片圖片

LLM規(guī)劃器的實(shí)現(xiàn)非常簡潔高效,充分利用了大型語言模型的提示學(xué)習(xí)(Prompt Learning)和語境學(xué)習(xí)(In-Context Learning)能力。

LLM規(guī)劃器的輸入提示描述了需要生成不同工具組合序列的情境,同時(shí)定義了工具箱中的所有工具。

圖片圖片

LLM規(guī)劃器的提示還提供了一些語境示例,以指導(dǎo)大型語言模型如何根據(jù)輸入信息生成正確的程序。

圖片圖片

基于這些描述和示例,大型語言模型,如ChatGPT和GPT-4,能夠?qū)W習(xí)如何針對新的輸入問題生成適當(dāng)?shù)某绦颍越M合和調(diào)用工具箱中的不同工具,從而完成涉及復(fù)雜推理的輸入問題。

Chameleon模型的一大優(yōu)勢在于為用戶提供了豐富的靈活性,只需提供語言描述,就能讓大型語言模型與外部工具協(xié)同工作,覆蓋多種類型和技能維度。

此外,它具有即插即用的特性,允許用戶無縫更新底層大型語言模型、添加新工具,并適應(yīng)新的任務(wù)。

Chameleon工具箱的多樣技能

為滿足多樣的推理需求,Chameleon的工具箱中包含了各種不同技能的工具,包括圖像理解、知識(shí)理解、數(shù)學(xué)推理、表格推理和問答。

圖片圖片

基于LLM的工具實(shí)現(xiàn)

需要強(qiáng)調(diào)的是,Chameleon的工具箱中包括了基于LLM(大型語言模型)的工具。

以“知識(shí)檢索(Knowledge Retrieval)”工具為例。

在幫助系統(tǒng)解決復(fù)雜問題時(shí),檢索額外的知識(shí)至關(guān)重要。這個(gè)工具模塊利用大型語言模型強(qiáng)大的生成能力來獲取特定領(lǐng)域的知識(shí)。

這在處理專業(yè)領(lǐng)域問題,如科學(xué)和數(shù)學(xué)時(shí)尤為有用。

舉例來說,如果問題涉及理解稅表,這個(gè)模塊可以生成與稅務(wù)相關(guān)的背景知識(shí),這對后續(xù)的推理步驟至關(guān)重要。

圖片圖片

最近的研究表明,程序輔助方法可以提高大型語言模型在邏輯和數(shù)學(xué)推理方面的能力。

因此,工具箱中還包括了“程序生成(Program Generator)”工具,它利用大型語言模型的語境學(xué)習(xí)和代碼生成能力,結(jié)合輸入問題,生成可以有效解決給定問題的Python程序。

圖片圖片

此外,還可以構(gòu)建“解答生成(Solution Generator)”工具,它能指導(dǎo)大型語言模型充分利用輸入問題、上下文信息和歷史工具執(zhí)行的中間結(jié)果,生成多步且詳細(xì)的解答。

圖片圖片

Chameleon模型的評測表現(xiàn)

Chameleon模型在兩個(gè)復(fù)雜的多模態(tài)推理任務(wù)上進(jìn)行了實(shí)驗(yàn)評估,分別是ScienceQA和TabMWP。

ScienceQA,即科學(xué)問答,是一個(gè)涵蓋廣泛科學(xué)主題的多模態(tài)問答基準(zhǔn)測試。

如下圖的例子所示,回答ScienceQA中的問題需要使用各種知識(shí)、工具和技能,例如圖像描述、文本檢測、知識(shí)檢索、在線資源搜索,以及視覺推理。

這要求模型具備包括視覺和語言推理在內(nèi)的組合能力。

圖片圖片

Chameleon模型中的LLM規(guī)劃器能夠合成程序,以調(diào)用不同的工具組合來回答ScienceQA中不同類型的問題。

例如,在下圖所示的第一個(gè)例子中,Chameleon模型識(shí)別到輸入圖像包含廣告文本,因此調(diào)用了“文本檢測(Text Detector)”工具來理解圖像中的文字。

隨后模型調(diào)用“知識(shí)檢索(Knowledge Retrieval)”工具來檢索問題所涉及到的術(shù)語“persuasive appeal”的相關(guān)背景知識(shí)。

最后,模型根據(jù)輸入問題和執(zhí)行之前工具得到的中間結(jié)果得出最終的答案。

第二個(gè)問題涉及到識(shí)別圖像中的動(dòng)物并回答環(huán)境適應(yīng)性的問題。

Chameleon模型調(diào)用了“圖像描述(Image Captioner)”工具來理解圖像中的動(dòng)物,并通過調(diào)用“必應(yīng)搜索(Bing Search)”來獲取相關(guān)的學(xué)科背景知識(shí),最終的答案充分利用了這些信息。

圖片圖片

詳細(xì)的評測結(jié)果也充分證明了Chameleon模型在ScienceQA任務(wù)上的有效性。

圖片圖片

Chameleon模型在表格推理任務(wù)TabMWP中同樣展現(xiàn)了其出色的靈活性和有效性。

TabMWP是一個(gè)基于表格上下文的數(shù)學(xué)推理任務(wù),要求模型理解多種形式的表格并執(zhí)行精確的數(shù)值計(jì)算。

圖片圖片

在下圖的第一個(gè)示例中,涉及對計(jì)數(shù)表格進(jìn)行數(shù)學(xué)推理。Chameleon模型調(diào)用“知識(shí)檢索(Knowledge Retrieval)”工具來理解如何計(jì)算列表的中位數(shù)。然后,它依賴于程序輔助工具進(jìn)行精確計(jì)算。

第二個(gè)示例需要在較大的表格上下文中定位到一個(gè)單元格。為此,Chameleon模型調(diào)用工具箱中的“行查找(Row Lookup)”工具來準(zhǔn)確定位表格中的相關(guān)行。

接下來,Chameleon模型只需理解簡化的表格,然后生成最終的自然語言答案,而無需生成Python代碼來增強(qiáng)數(shù)學(xué)推理。

圖片圖片

類似地,Chameleon模型在TabMWP任務(wù)中也展現(xiàn)了強(qiáng)大的推理能力。

圖片圖片

下圖突顯了這兩個(gè)任務(wù)中的關(guān)鍵基準(zhǔn)模型。

在ScienceQA任務(wù)中,Chameleon模型與GPT-4合作,實(shí)現(xiàn)了86.5%的準(zhǔn)確率,是當(dāng)前最優(yōu)秀的few-shot模型。

同樣地,Chameleon在TabMWP數(shù)據(jù)集上實(shí)現(xiàn)了98.8%的準(zhǔn)確率,領(lǐng)先最先進(jìn)模型17.0%的性能。

圖片圖片

消融實(shí)驗(yàn)揭示Chameleon的關(guān)鍵模塊

研究人員進(jìn)行了消融實(shí)驗(yàn),分析了當(dāng)禁用生成程序中的關(guān)鍵模塊時(shí),Chameleon模型的準(zhǔn)確率下降情況。

實(shí)驗(yàn)結(jié)果顯示,“知識(shí)檢索(Knowledge Retrieval)”模塊在兩項(xiàng)任務(wù)中都扮演了重要的角色。

對于ScienceQA任務(wù),特定領(lǐng)域的工具,如“必應(yīng)搜索(Bing Search)”和與視覺相關(guān)的工具,起到了關(guān)鍵作用,而在TabMWP任務(wù)中,常用的“程序生成(Program Generator)”模塊對最終性能的影響也非常顯著。

圖片圖片

Chameleon模型的工具規(guī)劃能力

不同工具的使用比例

通過可視化Chameleon模型生成的程序中不同工具的使用比例,可以觀察到使用不同的語言模型時(shí),LLM規(guī)劃器表現(xiàn)出不同的規(guī)劃行為。

通常情況下,ChatGPT對于使用或不使用某些工具有較強(qiáng)的偏好。

例如,在回答ScienceQA問題時(shí),ChatGPT傾向于調(diào)用“知識(shí)檢索(Knowledge Retrieval)”,占用比例為72%,而僅在3%的情況下調(diào)用“必應(yīng)搜索(Bing Search)”。

在TabMWP任務(wù)中,ChatGPT更依賴“行查找(Row Lookup)”工具,較少調(diào)用“列查找(Column Lookup)”。

而GPT-4在工具選擇上表現(xiàn)得更加客觀和理性。

例如,在回答ScienceQA的科學(xué)問題時(shí),GPT-4更頻繁地調(diào)用“知識(shí)檢索”,并且相對ChatGPT更頻繁地調(diào)用“Bing搜索”(11% vs. 3%)。

圖片圖片

工具調(diào)用的轉(zhuǎn)態(tài)轉(zhuǎn)移圖

通過可視化Chameleon模型生成的程序中不同工具的狀態(tài)轉(zhuǎn)移圖,可以觀察到LLM規(guī)劃器在工具調(diào)用中所展現(xiàn)的規(guī)律。

例如,在ScienceQA任務(wù)中,Chameleon模型通常會(huì)選擇使用“知識(shí)檢索(Knowledge Retrieval)”來獲取大型語言模型中的內(nèi)部知識(shí),或者調(diào)用“必應(yīng)搜索(Bing Search)”來獲取互聯(lián)網(wǎng)上的在線信息。

在TabMWP任務(wù)中,研究人員觀察到兩種主要的工具調(diào)用模式:

Chameleon模型要么直接通過自然語言推理來完成回答,要么利用程序生成相關(guān)的工具來增強(qiáng)邏輯和數(shù)學(xué)推理。

圖片圖片

Chameleon模型的進(jìn)一步發(fā)展

Chameleon模型通過其簡單高效的框架,實(shí)現(xiàn)了大型語言模型與多種外部工具的高效協(xié)同,從而顯著增強(qiáng)了在復(fù)雜任務(wù)上的推理能力。在大型語言模型的工具增強(qiáng)領(lǐng)域,未來有許多潛在的發(fā)展方向:

擴(kuò)展工具箱:可以將工具箱擴(kuò)展到更多工具,包括特定領(lǐng)域的工具,如Wolfram。這將進(jìn)一步增加Chameleon模型在不同任務(wù)和領(lǐng)域中的適用性,使其成為更全面的多功能工具。

改進(jìn)規(guī)劃器:可以考慮提出更加準(zhǔn)確的規(guī)劃器,例如能夠逐步規(guī)劃下一步驟的工具,并根據(jù)執(zhí)行結(jié)果的反饋進(jìn)行規(guī)劃優(yōu)化。這將有助于提高Chameleon模型在復(fù)雜任務(wù)中的效率和準(zhǔn)確性。

輕量化替代:未來可以考慮將涉及到大型語言模型的部分替換為更輕量級的本地模型,以減小計(jì)算資源的消耗,提高模型的響應(yīng)速度,并降低部署成本。這將使Chameleon模型更適用于實(shí)際應(yīng)用場景。

總之,Chameleon模型的未來發(fā)展有望在工具增強(qiáng)領(lǐng)域取得更大的突破,為解決復(fù)雜問題提供更強(qiáng)大的支持,并拓展其應(yīng)用范圍。

論文鏈接:https://arxiv.org/abs/2304.09842

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-12-12 13:51:00

AI訓(xùn)練

2009-12-01 13:55:05

SUSE Linux

2023-10-26 08:40:15

模型隱私推理

2023-03-20 10:19:25

ChatGPT數(shù)學(xué)

2025-04-18 08:42:52

模型推理AI

2023-10-14 13:09:53

谷歌模型

2025-04-03 11:16:10

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2024-09-12 13:50:00

模型訓(xùn)練

2022-08-02 14:45:16

AI微軟工具

2009-04-16 08:19:40

Windows 7微軟操作系統(tǒng)

2025-06-03 08:25:00

推理模型框架

2021-10-11 17:27:50

框架計(jì)算機(jī)開發(fā)

2010-01-25 14:04:17

Android Wid

2021-08-10 16:01:18

模型人工智能深度學(xué)習(xí)

2021-11-01 10:40:15

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-09-25 10:04:37

模型AI

2023-10-23 10:02:00

模型技術(shù)

2025-06-04 08:35:00

2025-05-21 13:56:37

模型圖像AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 99热播放| 美日韩精品 | 羞羞视频免费观 | 日本在线视频一区二区 | 久久久国产一区二区三区四区小说 | 久久99蜜桃综合影院免费观看 | 中文字幕成人av | 国产成人精品一区二 | 中文字幕精品一区 | 亚洲一区视频 | 国精日本亚洲欧州国产中文久久 | av在线免费观看网址 | 久久亚洲精品国产精品紫薇 | 亚洲精品久久久一区二区三区 | 在线一区视频 | 欧美中文字幕在线观看 | 一级片网址 | 国产一区二区日韩 | 久久久久亚洲精品 | 亚洲精品久久久久久一区二区 | 免费视频久久久久 | 午夜精品久久久久久久久久久久 | 国产精品91网站 | 欧美性受xxxx| 亚洲狠狠爱 | 中文字幕av第一页 | 在线看av网址 | 国产精品第2页 | 日韩三级一区 | 99热精品在线观看 | 在线视频 亚洲 | 伊人久久免费视频 | 暴草美女 | 久久精品免费 | 狠狠av | 男女羞羞视频在线观看 | 小早川怜子xxxxaⅴ在线 | 国产福利免费视频 | 成人影院午夜 | 91麻豆精品国产91久久久更新资源速度超快 | 国产性生活一级片 |