成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

?哪個模型擅長調用工具?這個7B模型躋身工具調用綜合榜單第一

人工智能 新聞
Hammer 模型通過函數掩碼技術和不相關性檢測數據增強,在多個評測基準中取得了良好的效果,表現出強大的泛化能力和穩定性,為輕量化工具調用模型在終端應用向前邁了一步。

工具調用是 AI 智能體的關鍵功能之一,AI 智能體根據場景變化動態地選擇和調用合適的工具,從而實現對復雜任務的自動化處理。例如,在智能辦公場景中,模型可同時調用文檔編輯工具、數據處理工具和通信工具,完成文檔撰寫、數據統計和信息溝通等多項任務。

業界已發布的工具調用模型,在特定評測基準上有接近甚至超越閉源 SOTA 模型(比如 GPT-4)的表現,但在其他評測基準上下降明顯,難以泛化到新工具和新場景。為應對這一挑戰,來自 OPPO 研究院上海交通大學的研究團隊提出函數掩碼(Function Masking) 方法,構建了具備強大泛化能力的輕量化工具調用系列模型:Hammer,并開源了完整的技術棧,旨在幫助開發者構建個性化的終端智能應用。

在工具調用典型評測基準上,包括 Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools 等,Hammer 系列模型展現了出色的總體性能,特別是 Hammer-7B 模型,綜合效果僅次于 GPT-4 等閉源大模型,在工具調用模型中綜合排名第一,具備強大的新場景和新工具泛化能力。

圖片

  • 模型地址:https://huggingface.co/MadeAgents
  • 論文地址:https://arxiv.org/abs/2410.04587
  • 代碼地址:https://github.com/MadeAgents/Hammer

工具調用任務說明

工具調用作為 AI 智能體執行復雜任務所必備的核心能力,要求模型不僅能夠識別正確的函數,還要準確填寫函數的輸入參數;如果給定函數列表無法滿足用戶的意圖,模型也應具備拒絕任務的能力。下圖是工具調用模型輸入輸出的一個樣例:

圖片

Hammer 訓練方法

研究團隊在 Hammer 的訓練過程中引入了一項關鍵技術:函數掩碼(Function Masking) 和一個增強數據集:不相關性檢測增強數據集(Irrelevance-Augmented Dataset)

  • 函數掩碼旨在減少模型對函數名稱和參數名稱的依賴,核心是通過哈希化函數名稱和參數名稱,使模型在執行工具調用任務時不得不依賴更完備且可靠的功能描述信息,而不是對名稱的記憶或匹配。這種方式有助于減少因命名差異導致的誤判問題,提升模型在多樣化命名風格和應用場景中的穩定性和適應性。
  • 不相關性檢測增強數據集旨在幫助模型在給定用戶意圖而當前無適用函數的情況下,能夠正確判斷并給出「不相關」信號。該數據集包含了 7,500 個增強樣本,設計時平衡了工具調用任務和不相關性檢測任務的比例,以達到最佳的綜合效果。(已開源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k

圖片

Hammer 總體表現

Hammer 系列模型在工具調用典型評測基準上均展現了出色的性能,具體表現如下面的兩張表格所示。可以看到,在 BFCL 榜單上,Hammer-7B 模型的總體準確率達到 83.92%,接近閉源 SOTA 模型 GPT-4 的 95.79%,優于其他工具調用模型。同時,在其他評測基準上,Hammer-7B 模型的平均 F1 達到 76.21%,接近閉源模型 GPT-4 的 78.79%,大幅領先其他工具調用模型。Hammer-7B 能夠在參數規模較小的情況下,在不同評測基準上與閉源 SOTA 大模型競爭,充分展示了 Hammer 模型在各種工具調用任務中的準確性和穩定性。

圖片

圖片

函數掩碼技術的通用性

研究團隊還將函數掩碼和數據增強技術應用于不同的基礎模型,以驗證其通用性。實驗選擇了 Qwen 系列和 Deepseek-Coder 系列模型作為基準,并在相同的訓練和測試條件下進行比較。下表中的結果顯示,經過函數掩碼技術調優后的 Hammer 版本顯著提升了基礎模型的工具調用準確性,遠高于未調優版本,證明了函數掩碼和不相關性數據增強對不同模型架構均有顯著的優化效果。同時,在使用相同的基座模型和基礎數據的情況下,與 xLAM(同樣基于 Deepseek 微調而來的工具調用模型)的對比,也體現了函數掩碼及不相關性數據增強的作用。

圖片

不相關性數據增強比例的權衡

在設計不相關性數據增強時,研究團隊測試了不同比例的不相關性數據樣本對模型表現的影響。下圖實驗結果表明,合理比例的不相關性增強數據(約占總數據的 10%)能夠在提升工具調用準確性的同時,顯著增強模型在不相關檢測場景中的識別能力,降低錯誤調用的風險。實驗結果還顯示,進一步增加不相關性數據會略微降低功能調用的準確性,因此找到適當的平衡點至關重要。

圖片

總結

Hammer 模型通過函數掩碼技術和不相關性檢測數據增強,在多個評測基準中取得了良好的效果,表現出強大的泛化能力和穩定性,為輕量化工具調用模型在終端應用向前邁了一步。

Hammer 系列目前已更新至 2.0 版本,歡迎感興趣的讀者通過 huggingface 進行體驗!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-25 08:00:00

2024-07-15 08:58:00

2024-06-03 10:43:34

2024-03-08 10:05:09

SpringHTTP接口

2024-05-15 09:17:30

模型AI

2023-06-28 21:47:54

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-03-17 12:13:26

AI模型生成

2024-09-05 14:25:00

訓練代碼

2024-04-02 09:17:50

AI數據開源

2023-10-13 19:58:33

Mistral7B模型

2010-06-04 17:56:22

Linux 常用工具

2024-08-13 15:40:00

2025-02-17 08:00:00

DeepSeek模型AI

2024-06-11 14:30:18

2025-04-27 07:57:50

大模型工具JSON

2025-02-10 14:30:00

模型數據開源

2024-07-17 13:40:01

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区在线播放 | 亚洲视频一区在线观看 | 美女天天干天天操 | 欧美色综合天天久久综合精品 | 国产精品成人国产乱一区 | 国产精品99久久久久久www | 羞羞在线观看视频 | 91亚洲精品久久久电影 | 一区二区中文 | 国产精品久久国产精品 | 欧美日在线 | 日本三级线观看 视频 | 在线视频一区二区 | 看亚洲a级一级毛片 | 国产欧美视频一区二区三区 | 国产激情在线观看视频 | 久久久日韩精品一区二区三区 | 亚洲国产成人精品女人久久久 | 91精品久久久 | 欧美综合在线视频 | 日韩电影一区二区三区 | 99精品一级欧美片免费播放 | 毛片一级片 | 盗摄精品av一区二区三区 | 国产www在线 | 久久久999精品 | 中文字幕精 | 中文字幕在线观看第一页 | 日本精品一区二区三区在线观看视频 | 黄色片免费看视频 | 日韩一区二区三区在线视频 | 成人特级毛片 | 日日干干夜夜 | 99久久日韩精品免费热麻豆美女 | 久久久久久久97 | 国产精品福利久久久 | 免费一区 | 中文字幕在线观看一区 | 91 中文字幕 | 日韩欧美专区 | av网站免费在线观看 |