如何生成Function Calling微調數據？

ermulong

發布于 2024-12-4 12:07

瀏覽

0收藏

本文將深入探討如何為function calling任務生成高質量的微調數據，并通過具體例子和實戰步驟帶領讀者逐步理解這一技術核心。

大型語言模型在函數調用中的關鍵能力

在function calling微調過程中，模型需要掌握以下關鍵能力：

準確的API選擇：識別并選擇最合適的API執行用戶的查詢。這要求模型具備強大的理解能力，能夠分析用戶的自然語言意圖，并從多個可選的API中匹配到最相關的一個或多個。
精確的參數映射：將用戶的自然語言輸入映射到所選API的參數中。這一過程要求模型能夠處理復雜的嵌套結構、依賴關系等復雜的API調用場景。
遵循API格式：生成的函數調用必須嚴格遵循API的預定義格式和語法要求，確保函數調用可以被正確執行。
推理和一致性：在復雜的決策過程中，模型需要能夠推理，評估用戶的意圖和工具的要求，并確保參數選擇的準確性和一致性。

接下來，我們將分步驟講解如何通過數據生成和微調來提升模型在這些方面的表現。

如何提升API選擇的準確度？

分析用戶意圖

模型必須具備準確解析用戶自然語言的能力，并從中提煉出操作意圖。例如，用戶可能會說：“幫我查找附近的餐館。”模型需要知道這與某個地理位置查詢API相關，并可能需要調用一個提供附近餐館的API。

示例： 用戶輸入：

用戶：我想訂一個離我最近的意大利餐廳。

模型解析意圖，確定需要調用一個“餐廳搜索API”，其中包含餐廳類型、位置等參數。

提供合適的API選項

一旦意圖被解析出來，模型需要從多樣的API列表中選擇最合適的。比如，如果有多個API可以執行相似的任務（如Google Maps API、Yelp API等），模型需要能夠根據用戶的特定要求選擇合適的API。

如何生成Function Calling微調數據？-AI.x社區

示例：

API1: Google Maps API - 提供餐廳、位置服務
API2: Yelp API - 提供餐廳推薦和評價

此時模型需要判斷用戶是否需要餐廳的推薦（評價）還是僅需位置信息，進而選擇合適的API。

使用合成數據提升API選擇

為了提升模型對API選擇的敏感度，可以通過生成合成數據集。合成數據集通過創建不同的用戶場景來訓練模型選擇合適的API。比如，生成一些不同問題場景的模擬數據，并讓模型通過微調來學會正確的API選擇。

例子：

場景1：用戶詢問天氣 → 調用天氣API
場景2：用戶詢問路線 → 調用地圖API

通過這些合成場景，模型逐漸學習并優化API選擇的策略。

如何實現精確的參數映射？

簡單參數映射

在簡單場景下，用戶的輸入會直接映射到API的參數。例如，用戶想搜索一家餐廳，輸入中包含餐廳類型和位置信息。模型需要將這些信息直接映射到API的參數中。

示例：

用戶：搜索一下北京的咖啡館。
映射后的API調用：searchRestaurants(locatinotallow="北京", type="咖啡館")

復雜嵌套結構的處理

有時，API調用需要處理嵌套參數或復雜的數據結構。例如，用戶可能會在查詢中包含多個條件，如餐廳類型、價格范圍、評價等。模型需要能夠將這些復雜條件映射到API的嵌套參數中。

示例：

用戶：找一家北京的意大利餐館，評分至少4星，價格適中。
映射后的API調用：searchRestaurants(locatinotallow="北京", type="意大利餐館", rating>=4, price_range="適中")

使用合成API提升參數映射能力

通過創建一些復雜的合成API，并使用合成數據進行訓練，可以幫助模型更好地處理嵌套結構和復雜參數。

示例：

合成API：search(location, type, rating, price_range) 合成數據：場景1：用戶查詢餐廳并提供價格范圍和評價場景2：用戶查詢電影，并提供導演和上映年份

通過多種合成場景，模型能夠學習如何處理不同類型的參數映射。

如何保證生成數據與Schema的一致性？

定義嚴格的Schema

如何生成Function Calling微調數據？-AI.x社區

img

為了確保生成的函數調用符合API的預定義格式，需要定義一個嚴格的Schema。Schema規定了每個API的參數類型、結構以及可能的取值范圍。微調過程中，模型需要學會在調用API時嚴格遵循這些Schema。

示例： Schema：

{
  "location": "string",
  "type": "string",
  "rating": "float",
  "price_range": "string"
}

生成的數據必須符合這個Schema，例如：

searchRestaurants(locatinotallow="北京", type="意大利餐館", rating=4.5, price_range="適中")

使用Schema驗證生成數據

如何生成Function Calling微調數據？-AI.x社區

img

在訓練過程中，所有生成的API調用都需要經過Schema驗證，以確保格式的一致性。如果生成的數據不符合Schema要求，則進行修正并反饋給模型。這種反饋機制可以幫助模型逐漸學習如何生成符合格式的數據。

如何確保用戶對話與函數調用的一致性？

用戶意圖和API調用的匹配

模型在生成函數調用時，必須確保API調用準確反映用戶的意圖。為此，可以在訓練過程中引入對話數據，并要求模型不僅生成API調用，還要確保API調用能夠正確響應用戶的需求。

示例：

用戶：我想查找最近的電影院。
映射后的API調用：searchTheaters(locatinotallow="當前", distance="最近")

使用對話數據進行微調

對話數據是訓練function calling模型的重要資源。通過真實的用戶對話場景進行訓練，可以幫助模型更好地理解用戶意圖，并生成與之匹配的API調用。

合成API生成與場景設計的幾點啟發

合成API的優勢

Function calling微調的目標是提升模型的function calling能力，而不是去擬合現有的API。因此，使用合成API進行訓練是一種有效的方法。合成API允許開發者根據特定的應用場景設計各種API接口，并在這些接口上進行模型訓練。

如何設計合成API？

合成API的設計可以基于特定領域的文本文檔，提取不同類型的問題場景。然后，基于這些場景，模型可以思考應對這些場景的API調用形式。

提升API復雜度

通過調整API的屬性字段類型、嵌套關系等，可以進一步提升合成API的復雜度。這能夠幫助模型更好地處理復雜的API調用場景。

生成對話數據

在function calling微調過程中，生成多樣化的對話數據至關重要。一個有效的方法是讓模型在給定場景下扮演提出問題的用戶，然后通過交互生成多樣化的對話數據。這可以最大程度保證對話數據的多樣性，并幫助模型在更多的場景下進行function calling的訓練。

結論

通過以上思路，開發者可以通過合成API和復雜場景的設計，逐步提升大型語言模型的API選擇、參數映射、格式一致性和對話匹配能力。這些微調方法能夠幫助模型在實際應用場景中表現得更加智能和高效。

本文轉載自 ??AI小智??，作者： AI小智

標簽

微調

數據

API

贊

回復

舉報

回復

相關推薦

跨模型的Function_Calling來了

ermulong ? 4741瀏覽 ? 0回復
打破壁壘：生成式人工智能如何重塑數據分析場景

51CTO內容精選 ? 2836瀏覽 ? 0回復
Llama3實操增強的三種方式：RAG/Agent/Function Calling！！！

玄姐聊AGI ? 5715瀏覽 ? 0回復
構建 Autonomous AI Agent ｜函數調用（Function Calling）技術實例探索

Baihai_IDP ? 3714瀏覽 ? 0回復
沒有標記數據集，如何做大模型指令微調？介紹一款有潛力的標記數據集生成模型

Syrupup ? 5860瀏覽 ? 0回復
如何使用Hugging Face Transformers為情緒分析微調BERT？

51CTO內容精選 ? 3432瀏覽 ? 0回復
大模型的“手和腳”——連接外部應用的通道函數調用(function calling)，AI Agent的實現方式之一

AI探索時代 ? 7139瀏覽 ? 0回復
大模型微調技巧 | 高質量指令數據篩選方法-MoDS

NLP工作站 ? 4061瀏覽 ? 0回復
如何使用聚類分析分割數據

51CTO內容精選 ? 2658瀏覽 ? 0回復
LLM微調的關鍵要點：如何打造高效、可靠的AI模型

Halo咯咯 ? 3098瀏覽 ? 0回復
改個名字，數倍提升Function Calling準確率！

ermulong ? 2465瀏覽 ? 0回復
RAG檢索增強生成和大模型微調的抉擇

AI探索時代 ? 2542瀏覽 ? 0回復
中科大揭秘微調大模型的秘訣：如何精準選擇數據提升AI性能

AI論文解讀 ? 3143瀏覽 ? 0回復
OpenAI重磅：AI Agent智能體Function Calling 2.0！

玄姐聊AGI ? 3490瀏覽 ? 0回復
如何為生成式人工智能應用構建堅實的數據基礎

51CTO內容精選 ? 2324瀏覽 ? 0回復
多代理微調如何克服 LLM 的數據瓶頸

51CTO內容精選 ? 2314瀏覽 ? 0回復
11張圖全面總結 MCP、A2A、Function Calling 架構設計間關系

玄姐聊AGI ? 5282瀏覽 ? 0回復
一文剖析大模型、RAG、Agent、MCP、Function Calling、知識庫、向量數據庫、知識圖譜、AGI 的區別和聯系

玄姐聊AGI ? 1564瀏覽 ? 0回復
MCP 和 Function Calling 架構設計對比剖析

玄姐聊AGI ? 1557瀏覽 ? 0回復

ermulong

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

如何生成Function Calling微調數據？

大型語言模型在函數調用中的關鍵能力

如何提升API選擇的準確度？

分析用戶意圖

提供合適的API選項

如何實現精確的參數映射？

簡單參數映射

復雜嵌套結構的處理

使用合成API提升參數映射能力

如何保證生成數據與Schema的一致性？

定義嚴格的Schema

使用Schema驗證生成數據

如何確保用戶對話與函數調用的一致性？

用戶意圖和API調用的匹配

使用對話數據進行微調

合成API生成與場景設計的幾點啟發

結論

目錄