大語(yǔ)言模型插件功能在攜程的Python實(shí)踐
作者簡(jiǎn)介
成學(xué),攜程高級(jí)安全研發(fā)工程師,關(guān)注Python/Golang后端開(kāi)發(fā)、大語(yǔ)言模型等領(lǐng)域。
一、背景
2023年初,科技圈最火爆的話題莫過(guò)于大語(yǔ)言模型了,它是一種全新的聊天機(jī)器人模型,除了能應(yīng)對(duì)基本的日常聊天外,還能勝任如文案編寫(xiě)、旅游規(guī)劃等各項(xiàng)工作。
攜程信息安全部也緊跟時(shí)代步伐,在攜程內(nèi)部推出基于大語(yǔ)言模型的智能聊天機(jī)器人,并發(fā)布網(wǎng)頁(yè)版1.0,讓所有“程里人”可以便捷無(wú)門(mén)檻地享受大語(yǔ)言模型帶來(lái)的便利。在運(yùn)營(yíng)半年多后,我們廣泛收集了用戶的使用感受以及建議,結(jié)合當(dāng)下大語(yǔ)言模型的發(fā)展進(jìn)程,新推出了網(wǎng)頁(yè)版2.0,相較于1.0版本,簡(jiǎn)化了頁(yè)面展示,增加了歷史會(huì)話保存、自定義對(duì)話設(shè)置、支持插件、AI繪圖等功能。
其中插件功能可以擴(kuò)展大語(yǔ)言模型的個(gè)性化能力,讓其如虎添翼,開(kāi)發(fā)者可以根據(jù)特定需求定義特定插件供用戶使用。目前網(wǎng)頁(yè)版2.0版本支持10多種插件,如Google搜索插件可以對(duì)輸入的問(wèn)題進(jìn)行聯(lián)網(wǎng)查詢;Base64插件可以對(duì)Base64內(nèi)容進(jìn)行解密等。那么這些插件是如何實(shí)現(xiàn)的呢?讓我們一探究竟吧。
二、需求調(diào)研
2.1 Function Calling
目前多個(gè)大語(yǔ)言模型都推出了Function Calling(函數(shù)調(diào)用)能力,用于幫助開(kāi)發(fā)者通過(guò) API 方式實(shí)現(xiàn)類似于插件的能力。通過(guò)Function Calling,我們可以將多個(gè)自定義的函數(shù)描述連同提出的問(wèn)題一起傳給大語(yǔ)言模型,它會(huì)分析這些函數(shù)描述與提問(wèn)內(nèi)容的相關(guān)性,并將最相關(guān)的函數(shù)及對(duì)應(yīng)的函數(shù)傳參一起返回,我們?cè)賵?zhí)行函數(shù)對(duì)應(yīng)的業(yè)務(wù)邏輯,即可得到問(wèn)題的答案。
Function Calling的大體使用流程如下:
舉個(gè)例子,我們的問(wèn)題是“今天上海天氣如何”,大語(yǔ)言模型本身不能聯(lián)網(wǎng),不知道當(dāng)前上海的天氣信息,但是按照Function Calling的使用步驟,我們可以回答這個(gè)問(wèn)題:
- 我們可以事先在應(yīng)用服務(wù)端定義一個(gè)查詢天氣的函數(shù),函數(shù)描述為“查詢某時(shí)某地的天氣情況”,函數(shù)傳參為“日期”和“地點(diǎn)”,在函數(shù)內(nèi)部編寫(xiě)具體查詢天氣的代碼,如從氣象局網(wǎng)站獲取對(duì)應(yīng)的天氣信息。
- 除此之外,我們還可以定義一些其他自定義的函數(shù),如base65加解密函數(shù)、ip信息查詢函數(shù)等。
- 在調(diào)用大語(yǔ)言模型的API時(shí),將這些定義的函數(shù)按照api規(guī)范連同問(wèn)題“今天上海天氣如何”一起傳給模型。
- 通常情況下模型會(huì)返回和問(wèn)題相匹配的函數(shù),即查詢天氣的函數(shù),同時(shí)返回函數(shù)傳參“今天”和“上海”。
- 根據(jù)這個(gè)返回內(nèi)容,我們?cè)賹?shí)際調(diào)用查詢天氣的函數(shù),獲取到天氣信息。
- 最后將天氣信息返回給用戶。
由此可以看出Function Calling(函數(shù)調(diào)用)的本質(zhì)就是利用大語(yǔ)言模型的文字分析能力,在提供的一系列函數(shù)中,找出能夠回答問(wèn)題的最合適的函數(shù),函數(shù)內(nèi)部的具體邏輯則交給開(kāi)發(fā)者自己實(shí)現(xiàn),而不是大語(yǔ)言模型實(shí)現(xiàn)。
再進(jìn)一步分析可以發(fā)現(xiàn),如果沒(méi)有Function Calling,其實(shí)通過(guò)prompt提示我們也可以實(shí)現(xiàn)Function Calling的功能,例如prompt類似于“我有一些函數(shù),定義為xxxx,我想知道“今天上海天氣如何”,請(qǐng)告訴我用哪個(gè)函數(shù)可以解答這個(gè)問(wèn)題,并告訴我函數(shù)的傳參“。當(dāng)然這個(gè)prompt效果并不一定很好,每個(gè)人的prompt也不盡相同,那么Function Calling這個(gè)功能就應(yīng)運(yùn)而生了,針對(duì)這種場(chǎng)景進(jìn)行調(diào)優(yōu)并規(guī)范了函數(shù)的定義和返回格式,方便了開(kāi)發(fā)者的使用。
2.2 如何實(shí)現(xiàn)異步
在定義插件時(shí),有一些插件如Ping插件、IP掃描插件等,由于網(wǎng)絡(luò)耗時(shí)或執(zhí)行本身比較慢,提問(wèn)后無(wú)法立馬返回結(jié)果,所以需要使用異步的方式,等后臺(tái)服務(wù)執(zhí)行完成后,再把結(jié)果返回給前端。對(duì)于這種場(chǎng)景,我們需要主動(dòng)向前端推送消息,常用的方法就是使用WebSocket。
WebSocket是從HTML5開(kāi)始提供的一種瀏覽器與服務(wù)器進(jìn)行全雙工通訊的網(wǎng)絡(luò)技術(shù),它的目的是在瀏覽器和服務(wù)器之間建立一個(gè)不受限的雙向通信的通道。比如說(shuō),服務(wù)器可以在任意時(shí)刻發(fā)送消息給瀏覽器。它不是一種全新的協(xié)議,而是利用了HTTP協(xié)議來(lái)建立連接,屬于應(yīng)用層協(xié)議。
它具有如下優(yōu)點(diǎn):
- 支持雙向通信,實(shí)時(shí)性更強(qiáng)
- 更好的二進(jìn)制支持
- 較少的控制開(kāi)銷。連接創(chuàng)建后,ws客戶端、服務(wù)端進(jìn)行數(shù)據(jù)交換時(shí),協(xié)議控制的數(shù)據(jù)包頭部較小。在不包含頭部的情況下,服務(wù)端到客戶端的包頭只有2~10字節(jié)(取決于數(shù)據(jù)包長(zhǎng)度),客戶端到服務(wù)端的的話,需要加上額外的4字節(jié)的掩碼。而HTTP協(xié)議每次通信都需要攜帶完整的頭部
- 支持?jǐn)U展。ws協(xié)議定義了擴(kuò)展,用戶可以擴(kuò)展協(xié)議,或者實(shí)現(xiàn)自定義的子協(xié)議(比如支持自定義壓縮算法等)
除了WebSocket,我們還可以選擇使用socketIO。Socket.IO也可以實(shí)現(xiàn)客戶端和服務(wù)段之間雙向通信。但與WebSocket不同的是,socketIO是一個(gè)第三方庫(kù),他具有WebSocket的基本功能,同時(shí)也增強(qiáng)了一些的功能。比如:
- 兼容性:WebSocket是HTML5標(biāo)準(zhǔn)中的一部分,需要瀏覽器支持HTML5才能使用,而Socket.IO是基于WebSocket協(xié)議的封裝,可以在不支持WebSocket的瀏覽器上使用
- API:WebSocket只提供了底層的API,需要開(kāi)發(fā)者自己實(shí)現(xiàn)消息的編解碼、心跳等功能,而Socket.IO提供了更高層次的API,封裝了消息的編解碼、心跳等功能,使用更加方便
- 處理異常:WebSocket在連接異常時(shí)會(huì)直接斷開(kāi)連接,而Socket.IO的心跳機(jī)制會(huì)嘗試重新連接,提高了連接的穩(wěn)定性
- 支持的協(xié)議:WebSocket只支持單一的協(xié)議,而Socket.IO支持多種協(xié)議,包括WebSocket、Flash Socket、AJAX長(zhǎng)輪詢等
- HTTP 長(zhǎng)輪詢回退:如果無(wú)法建立 WebSocket 連接,連接將回退到 HTTP 長(zhǎng)輪詢
但需要強(qiáng)調(diào)的是:Socket.IO與WebSocket并不能兼容,盡管 Socket.IO 確實(shí)在可能的情況下使用 WebSocket 進(jìn)行傳輸,但它為每個(gè)數(shù)據(jù)包添加了額外的元數(shù)據(jù)。因此WebSocket客戶端將無(wú)法成功連接到Socket.IO服務(wù)器,而Socket.IO客戶端也將無(wú)法連接到普通WebSocket服務(wù)器。
socketIO服務(wù)連接時(shí),可以在f12中看到連接的過(guò)程:
總共分為5步:
- 客戶端發(fā)起握手請(qǐng)求(GET),服務(wù)端返回本次連接的前置基礎(chǔ)信息
{
"sid": "FSDjX-WRwSA4zTZMALqx", // 會(huì)話的ID,它必須包含在后續(xù)所有HTTP請(qǐng)求的查詢參數(shù)中
"upgrades": ["websocket"], // 數(shù)組包含服務(wù)器支持的所有“更好”傳輸?shù)牧斜? "pingInterval": 25000, // 心跳檢測(cè)時(shí)間,25秒
"pingTimeout": 20000 // # 心跳超時(shí)時(shí)間,20秒
}
- 客戶端帶上sid(POST),長(zhǎng)輪詢,發(fā)送連接請(qǐng)求
- 客戶端帶上sid(GET),長(zhǎng)輪詢,獲取連接確認(rèn)
- 升級(jí)建立WebSocket連接,響應(yīng)碼為101,且一直處于連接狀態(tài)
- 客戶端接收數(shù)據(jù) (GET),長(zhǎng)輪詢,WebSocket連接建立成功后關(guān)閉
三、 基本實(shí)現(xiàn)
以下實(shí)現(xiàn)案例基于國(guó)內(nèi)開(kāi)源大語(yǔ)言模型ChatGLM3,ChatGLM3 是智譜AI和清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合發(fā)布的對(duì)話預(yù)訓(xùn)練模型。
3.1 定義各種插件
根據(jù)ChatGLM3模型的插件規(guī)范,定義插件的相關(guān)信息,這里舉2個(gè)例子,Google搜索(同步插件)、Ping(異步插件)。
all_plugins = {
"google": {
"name_cn": "谷歌搜索", # 中文名稱
"sync": True, # 是否同步執(zhí)行
"message": "{result}", # 返回給用戶的消息
# info內(nèi)容為符合ChatGLM3 function call規(guī)范的函數(shù)定義
"info": {
"name": "google", # 函數(shù)名
"description": "當(dāng)問(wèn)題需要進(jìn)行實(shí)時(shí)搜索(如今天的日期或者今天的天氣等)時(shí), 或者無(wú)法回答時(shí), 使用 google 搜索", # 函數(shù)描述
"parameters": {
"type": "object",
"properties": {
"keyword": { # 傳參參數(shù)名
"type": "string", # 參數(shù)數(shù)據(jù)類型
"description": "搜索的關(guān)鍵詞" # 參數(shù)描述
}
},
"required": ["keyword"] # 必填參數(shù)
}
}
},
"ping": {
"name_cn": "ping",
"sync": False,
"message": "使用ping插件,由于該任務(wù)執(zhí)行時(shí)間比較長(zhǎng),完成后我會(huì)主動(dòng)將結(jié)果發(fā)送給您。請(qǐng)耐心等待。如果您有其他問(wèn)題,可以繼續(xù)提問(wèn)。",
"info": {
"name": "ping",
"description": "使用ping工具對(duì)IP地址進(jìn)行ping測(cè)試",
"parameters": {
"type": "object",
"properties": {
"addr": {
"type": "string",
"description": "被ping的ip或者域名"
}
},
"required": ["addr"]
}
}
}
}
定義插件對(duì)應(yīng)的函數(shù)實(shí)現(xiàn):
class Functions:
@classmethod
def ping(cls, **kwargs):
"""ping實(shí)現(xiàn)"""
# 省略ping的代碼實(shí)現(xiàn)
pass
@classmethod
def google(cls, **kwargs):
"""google搜索實(shí)現(xiàn)"""
# 查詢關(guān)鍵字
keyword = kwargs['keyword']
# 搜索結(jié)果
search_context = []
# 使用google api搜索
res = server['service'].cse().list(q=keyword, cx=server['cx'], ).execute()
# 遍歷搜索結(jié)果
for row in res.get('items', []):
# 提取每條搜索結(jié)果的簡(jiǎn)要信息
search_context.append(row['snippet'])
# 匯總搜索結(jié)果和問(wèn)題組成prompt
prompt = [{"role": "user", "content": f"請(qǐng)結(jié)合以下內(nèi)容,回答問(wèn)題:{keyword}\n" + "\n".join(search_context)}]
# 調(diào)用大語(yǔ)言模型生成答案
return reply_text(prompt)
3.2 使用Function Calling實(shí)現(xiàn)插件功能
大體邏輯為:將插件信息和用戶提問(wèn)一起發(fā)送給大語(yǔ)言模型的API,得到與之匹配的插件,再調(diào)用插件對(duì)應(yīng)的函數(shù),得到結(jié)果返回給用戶。以下代碼為簡(jiǎn)化的ChatGLM3示例代碼:
import torch
from transformers import AutoTokenizer, AutoModel
def main():
"""使用插件時(shí)回復(fù)文字"""
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
tokenizer = AutoTokenizer.from_pretrained('/home/chatglm3-6b', trust_remote_code=True)
model = AutoModel.from_pretrained('/home/chatglm3-6b', trust_remote_code=True).to(DEVICE).eval()
# 匯總所有的插件信息
tools = [plugin['info'] for plugin in all_plugins.values()]
# 將插件信息設(shè)置在對(duì)話歷史中
history = [{"role": "system", "content": "Answer the following questions as best as you can. You have access to the following tools:", "tools": tools}]
# 調(diào)用function calling
response, _ = model.chat(tokenizer, query, history=history)
# 獲取匹配的插件名稱
plugin_name = response.get("name", "")
# 獲取匹配的插件參數(shù)
arguments = response.get("parameters", {})
# 沒(méi)有匹配到插件則退出
if not plugin_name:
return None
# 獲取插件完整信息
plugin = all_plugins[plugin_name]
# 使用反射機(jī)制獲取插件對(duì)應(yīng)的函數(shù)對(duì)象
func = getattr(Functions, plugin_name)
# 執(zhí)行函數(shù)并返回結(jié)果
res = func(**arguments)
return res
3.3 異步插件的實(shí)現(xiàn)
本項(xiàng)目Web后端使用的框架為flask,使用socketIO實(shí)現(xiàn)異步交互,需要安裝對(duì)應(yīng)的庫(kù):flask_socketio,啟動(dòng)時(shí),在flask的app上使用SocketIO包裝一下即可,這樣在同一個(gè)端口上同時(shí)開(kāi)啟了http服務(wù)和socketIO服務(wù),下面只展示基本關(guān)鍵代碼:
from flask import Flask
from flask_socketio import SocketIO
# flask原始 app
web_app = Flask(__name__, static_folder=Config.STATIC_PATH)
# socketIO包裝app
socketio = SocketIO(web_app, cors_allowed_origins="*", logger=True)
# 可監(jiān)聽(tīng)連接和斷開(kāi)
@socketio.on('connect')
def handle_connect():
print("connect")
@socketio.on('disconnect')
def handle_disconnect():
print("disconnect")
# 本地啟動(dòng)app
if __name__ == '__main__':
socketio.run(web_app, address, port, allow_unsafe_werkzeug=True)
在socketIO中調(diào)用emit(event, *args, **kwargs)方法即可給指定目標(biāo)(event,本項(xiàng)目對(duì)應(yīng)為user)發(fā)送消息。
我們通過(guò)function calling獲取到對(duì)應(yīng)插件時(shí),如果是同步插件,則立即執(zhí)行對(duì)應(yīng)函數(shù),如果是異步插件,應(yīng)該異步開(kāi)啟執(zhí)行對(duì)應(yīng)函數(shù),并立馬結(jié)束當(dāng)前會(huì)話,等異步函數(shù)執(zhí)行完成后主動(dòng)發(fā)送消息給前端用戶,因此我們需要修改一下上面的插件代碼:
def main(user, question):
"""使用插件時(shí)回復(fù)文字"""
...代碼同上
# 使用反射機(jī)制獲取插件對(duì)應(yīng)的函數(shù)對(duì)象
func = getattr(Functions, plugin_name)
# 判斷插件是否同步
if plugin['sync']:
# 同步的插件,直接調(diào)用函數(shù)
res = func(**arguments)
else:
# 異步的插件,這里使用線程池示例執(zhí)行異步任務(wù)
thread_pool = ThreadPool(3)
# 定義回調(diào)函數(shù), 接收到結(jié)果后推送給前端
def callback(result):
# 推送給前端
socketio.emit(user, f"任務(wù)結(jié)果為: {result}")
# 異步調(diào)用
res = thread_pool.apply_async(func, kwds=arguments, callback=callback)
return res
四、 未來(lái)規(guī)劃
4.1 更多的插件
上述插件案例只是插件功能的冰山一角,通過(guò)該功能我們可以定義各種實(shí)用的插件,目前攜程信息安全部的大語(yǔ)言模型智能聊天機(jī)器人只是支持一些基本的插件,也歡迎大家給我們提出寶貴的建議,集思廣益,一起開(kāi)發(fā)出更多實(shí)用好用的插件。
4.2 每個(gè)用戶的自定義插件
目前的插件功能可以支持我們這些項(xiàng)目的開(kāi)發(fā)者實(shí)現(xiàn)自定義插件,這些插件也必須提前寫(xiě)入項(xiàng)目中,并不能支持終端用戶直接自定義自己的插件。后續(xù)我們會(huì)調(diào)研可行性方案,讓終端的用戶自己編寫(xiě)對(duì)應(yīng)的插件代碼,實(shí)現(xiàn)每個(gè)用戶都能定義自己的插件。