一句話,滿足兩個廣告商!谷歌最新「Token拍賣模型」,多LLM聯合創作廣告詞
當多個LLM智能體共同創作內容時,它們會如何協調彼此的「話語權」?
想象一下,在廣告投放中,A航空公司和B度假村都希望吸引用戶的目光,但單獨宣傳各自的服務可能不如聯合推廣來得有吸引力。
那么,如何讓AI智能體像人類一樣展開博弈,在競爭與合作之間找到最佳平衡?
谷歌研究人員提出了一種創新的「token拍賣模型」,讓LLM在文本生成過程中通過「競拍」來決定最終輸出,確保每個智能體的利益最大化,同時生成最優質的內容。
這種機制不僅能優化廣告創意,還能拓展至智能客服、內容創作等多個領域,重新定義AI協作。
以廣告為例,當用戶搜索「夏威夷度假」時,網頁上可能會出現一個廣告位。A航空公司和B度假村這兩家廣告商,都希望在這個位置展示自家的廣告。
他們分別借助LLM生成廣告內容,比如A公司的「乘坐A航空,飛向夏威夷」,B度假村的「在B度假村,享受夏威夷的美景」。
但如果能將兩者的優勢結合,形成聯合廣告「乘坐A航空抵達夏威夷,在B度假村享受夢幻一周的度假體驗」無疑會更具吸引力,也能更好地滿足用戶夏威夷度假的需求。
假設有兩個分別代表虛擬廣告商A航空和B度假村的智能體,它們的任務是合作一則聯合廣告創意。
然而,這種合作并不容易實現。
每個LLM背后的廣告商都有自己的偏好和利益訴求。廣告商們都希望自家的產品或服務能在廣告中被重點提及,并且突出展示那些他們認為更有吸引力的特點。
這就好比在一場團隊比賽中,每個隊員都想讓自己負責的部分成為焦點。
這種情況下,如何協調多個LLM的輸出,讓它們共同生成一個既能滿足各方利益,又能達到最佳效果的聯合輸出,成為了一個需要解決的問題。
Token「拍賣」模型
為了解決上述問題,研究人員提出了token拍賣模型。
該模型以token為單位,逐個進行拍賣。在每次拍賣中,每個LLM作為競拍者,根據自身的能力和意愿對下一個token進行出價。模型的核心任務包括:
1. 擴展共享的token序列:決定下一個添加到文本中的token。
2. 確定每個競拍者的支付費用:通過支付函數計算每個LLM需要支付的費用。
分布聚合函數在此過程中扮演裁判角色,綜合考慮每個LLM提供的token分布和出價,生成新的聚合分布。支付函數則負責確定每個智能體的支付金額,激勵其真實地表達自身偏好。
先來看看單個LLM是如何工作的。當模型接收到一段輸入文本后,會根據自己所學的知識和模式,給出下一個可能出現的token的概率分布。
例如,輸入「機制設計為」,模型可能會輸出 [(大型,0.8), (生成式,0.2)],這意味著下一個token是「大型」的概率為80%,是「生成式」的概率為20%。
基于這種概率分布,LLM可以自動生成文本,從一個初始的提示文本開始,不斷根據概率分布選擇下一個token,直到生成一個完整的文本。
token拍賣模型在此基礎上進行了拓展,它以token為單位,逐個進行拍賣。
在這個「拍賣會」上,每個LLM都是一個「競拍者」,它們根據自己的能力和意愿出價。
同時,token拍賣模型承擔著兩個關鍵任務:一是擴展共享的token序列,也就是決定下一個添加到文本中的token;二是確定每個「競拍者」需要支付的「費用」。這兩個任務分別由分布聚合函數和支付函數來完成。
Token拍賣模型架構
分布聚合函數就像是一個裁判,它綜合考慮每個LLM給出的token分布和它們的出價,然后給出一個新的聚合后的token分布。
假設有三個LLM智能體,當前共享的token序列是「機制設計為」,智能體1的LLM給出的分布是 [(大型,0.8),(生成式,0.2)],出價為1;智能體2的分布是 [(大型,1.0)],出價為2;智能體3的分布是 [(生成式,1.0)],出價為2。
那么,分布聚合函數可能會根據出價加權平均的方式,得到一個新的聚合分布 [(大型,0.56),(生成式,0.44)] 。
設計空間縮減
在Token拍賣模型的設計中,研究人員強調了以下兩個理想屬性:
- 支付單調性:如果一個LLM提高了出價,那么在最終的聯合輸出中,其偏好應得到更好的體現。
- 一致聚合:不同LLM的分布應以合理、一致的方式進行聚合。
通過嚴謹的數學推導,研究人員發現,這兩個屬性等同于要求分布聚合函數具有單調性。這一發現縮小了分布聚合函數的設計空間,使得模型設計和分析更加簡潔。
支付函數負責確定每個智能體需要支付的費用。支付單調性意味著如果一個智能體提高了出價,那么它在最終的聯合輸出中應該得到更好的待遇,也就是聚合后的分布應該朝著它更偏好的方向變化。
一致聚合則要求不同的LLM在參與拍賣時,它們的分布能夠以一種合理、一致的方式進行聚合。
「第二價格」支付機制
在拍賣理論中,「第二價格」支付方式被證明能夠提供良好的激勵效果。
在傳統的單物品拍賣中,「第二價格」支付是指把物品賣給出價最高的競拍者,但讓他支付第二高的出價。
在token拍賣模型中,研究人員也借鑒了這一理念。他們證明了(在一些合理的假設條件下),任何單調的分布聚合函數都可以采用類似「第二價格」的支付方式。
這種支付方式的好處在于,它可以促使智能體更真實地出價,因為即使他們提高出價贏得了競拍,也不需要支付過高的費用,從而避免了智能體為了獲得更好的結果而盲目抬高出價的情況。
最優聚合策略
為了設計最優的分布聚合函數,研究人員從先進的LLM訓練方法中汲取靈感,構建了聚合損失函數。
該函數為每個輸出分布關聯一個總損失值,目標是通過調整分布聚合函數,使總損失最小化。
研究人員提出了兩種有效的分布聚合函數:
- 線性分布聚合函數:輸出分布為出價加權平均值。
- 對數線性分布聚合函數:在對數空間中執行加權平均操作。
這兩種聚合函數在不同的場景下都有著良好的表現,為實際應用提供了更多的選擇。
實驗結果
為了驗證token拍賣模型的有效性,研究人員進行了一系列實驗。
他們選擇了現有的LLM,并通過提示調整(prompt tuning)的方式,讓模型扮演不同的廣告商角色。
在前面提到的A航空公司和B度假村的例子中,研究人員展示了在不同的出價相對權重(λ)下,線性聚合規則和對數線性聚合規則生成的廣告內容。
隨著λ值的變化,生成的廣告內容呈現出有趣的變化。
當λ=1時,廣告主要提及A航空公司;隨著λ逐漸減小,廣告開始同時提及A航空公司和B度假村。當λ=0時,廣告則主要宣傳B度假村。
實驗結果顯示,隨著出價權重的變化,生成的廣告內容能夠合理地體現各方的利益訴求,實現了不同廣告商之間的有效協作。
此外,研究人員還展示了更多不同提示,包括競爭廣告商場景下的實驗結果,進一步證明了token拍賣模型的靈活性和有效性,為多個LLM的協作提供了方案。
LLM的機制設計研究為多個LLM的協同工作帶來了啟發。
Token拍賣模型的提出,解決了多模型協作中的關鍵問題,還為后續的研究和應用奠定了基礎。
從實際應用的角度來看,這種機制在廣告、內容創作、智能客服等領域都有著廣闊的應用前景。
例如,在廣告領域,它可以讓不同品牌的廣告更巧妙地融合,提高廣告的吸引力和效果;在內容創作方面,多個智能體可以通過這種機制共同創作出更豐富、多元的作品。