AI生圖可“量身定制”了,華為&清華聯手打造個性化多模態生成方法PMG
蘋果OpenAI官宣合作,GPT-4o加持Siri,讓AI個性化生成賽道熱度飆升。
?
其實,國內已有相關研究,一項基于大模型的個性化多模態內容生成技術,直接可讓AI學會為用戶“量身定制”輸出。
例如在聊天軟件中生成表情包,輸入都是:
我通過了,很開心!
?
配備了個性化生成技術的聊天軟件可以識別當前用戶想表達的情緒并考慮用戶的個性化偏好,自動生成表情庫里沒有的多個笑臉貓表情候選供用戶點擊使用:
△圖1 個性化生成能夠生成符合用戶偏好的表情包
相比而言,非個性化生成不會考慮每個用戶之前的行為偏好,對用戶無差別對待,就沒那么懂用戶了。
這項最新技術名為PMG(Personalized Multimodal Generation),由華為與清華大學聯手打造。
PMG不僅限于即時通信軟件,還可以廣泛應用于電商、在線廣告、游戲、創作輔助等領域,實現個性化背景、人體形態、顏色、表情、角色等內容的生成。
比如根據用戶歷史偏好提取關鍵詞,生成T恤設計圖:
PMG是如何做到個性化生成的?
PMG長啥樣?
以個性化生成《泰坦尼克號》電影海報為例,下圖展示了PMG的模型結構。
△圖2 PMG的模型結構
用戶的觀影和對話歷史作為用戶歷史行為,電影泰坦尼克號真實的電影海報作為目標物品。研究團隊利用大語言模型的推理能力,從用戶歷史行為中提取用戶偏好。
具體包括兩部分:
- 通過凍結的大語言模型生成自然語言的顯式關鍵詞表達用戶偏好,稱為“顯式(硬)用戶偏好”,例如圖中用戶喜歡災難、驚悚片;
- 通過可訓練的大語言模型生成的隱式向量,稱為“隱式(軟)用戶偏好”,用來補充表達難以用少數關鍵詞描述的偏好。
同時,他們將目標物品也通過大模型轉換為顯式關鍵詞(稱為“目標物品關鍵詞”)作為目標項的描述信息。
最終,生成器(例如擴散模型或多模態大語言模型)通過整合和加權用戶偏好和目標項關鍵詞來生成既反映用戶個性偏好、又符合目標物品的多模態內容,例子中為更具有災難、驚悚風格的泰坦尼克號電影海報。
整個過程中有三個關鍵技術點:關鍵詞生成、隱式向量生成、用戶偏好和目標項的平衡。
下面我們逐一來看。
關鍵詞生成
首先需要構造提示詞指導大模型將用戶偏好提取為關鍵詞,該提示詞主要包含三個組成部分:任務指令p、屬性ai和任務示例e。
這些組件是針對每個場景人工設計的。
其中,任務指令p描述了需要大語言模型執行的任務,即“提取用戶偏好”。
屬性a=[a1,a2…]針對每個場景進行了定制,例如對于服裝可以是“顏色、材質、形狀”,對于電影可以是“類型、地區、導演”等等。
在每個問題中,大語言模型被指派回答與特定屬性相關的用戶偏好,并將這些答案進行組合。
示例e提供了期望的輸出格式和示例關鍵詞(例如“可愛”、“卡通”等),不僅有助于指導模型的回答,還使其遵循了標準化的輸出格式,從而便于從生成的輸出中提取關鍵詞。利用這個提示,可以將模型為屬性ai生成的用戶偏好關鍵詞kpi表示為:
接下來,將每個屬性的輸出組合起來,并消除重復項,得到用戶偏好關鍵詞kp:
生成目標項目關鍵詞kt的過程類似,但只有一個目標交互物品ht和相應的總結信息xt,同時在這種情況下,沒有涉及到對話,其生成過程可以表示為:
隱向量生成
利用提取出的用戶偏好關鍵詞kp和目標項關鍵詞kt,已經可以用于后續多模態內容生成,然而,作為一種離散化形式,自然語言表達能力有限。
另一方面,利用連續的隱向量能提供更豐富和精確的表示卻需要大量的訓練資源。因此我們采取以關鍵詞為主,隱向量為輔兩者結合的方式表征用戶偏好,這些用戶偏好向量有助于解決自然語言與實際用戶偏好之間的不匹配問題,其訓練過程如圖3所示。
△圖3 用戶偏好向量訓練流程
在用戶行為與提示詞的基礎上,研究團隊引入P-Tuning V2微調的偏差校正大模型,在其中使用額外長度為L的多模態表征M=[m1,m2…mL]來學習多模態生成能力。
這些多模態表征會被傳遞給大語言模型,并且它們在向量層中的對應參數是可訓練的。
同時按照P-Tuning V2的方法,在每個Transformer層的自注意力機制中,將S個可訓練的前綴向量t=[t1,t2…tS]前置到向量序列中。偏差校正大模型正向傳播操作的結果輸出向量可以表示為:
其中Eprompt和Em表示大語言模型的兩部分輸出,其中多模態表征的輸出Em被作為偏好隱向量用于后續多模態內容的生成過程。生成器結合偏好隱向量、用戶關鍵詞生成的多模態內容會與監督信號計算MSE損失,并反向傳播到偏差校正大模型中的可訓練參數中進行訓練。
用戶偏好和目標項的平衡
在生成推理過程中,需要同時結合用戶偏好和目標項。
然而,生成器往往具有較大的隨機性,簡單地組合可能導致對某一個條件的過度側重,而忽略了另一個條件。為了解決這一問題,研究團隊使用生成內容與偏好關鍵詞之間的相似度來衡量個性化程度,稱之為“個性化水平”。
同樣地,生成結果與目標項關鍵詞的相似度稱為“準確度”,即目標契合指標。
通過這兩個指標,可以從兩個角度量化衡量生成效果。
這兩個指標的計算方式為利用預訓練的多模態網絡(如CLIP),將生成結果M和關鍵詞kp、kt轉換為向量eM、ep、et,計算它們之間的余弦相似度,作為個性化水平dp和準確度dt。
最后,優化目標為最大化dp和dt的加權和:
超參數α通常設置為0.5,可以根據使用場景和需求進行調整,以實現不同程度的個性化。
考慮到當前多模態生成器具有強大的并行生成能力,研究團隊使用多個預定義的權重集合wp、wt進行生成,并選擇得分z最高的一個作為最終生成結果。
PMG效果如何?
研究團隊通過以下三個應用場景來驗證PMG:
- 在電商應用中以服裝圖片生成為例,根據用戶歷史點擊的產品,生成服裝的個性化圖像。研究團隊采用了一個多模態的時尚服裝數據集POG,用于訓練和評估。
- 在電影海報場景,根據用戶觀影歷史,生成個性化電影海報。采用MovieLens數據集進行訓練和評估。
- 在表情生成應用中,根據用戶的對話和表情使用歷史,生成個性化表情符號。
使用Llama2-7B作為基礎的大模型進行了實驗,生成效果如下圖所示。
在每個場景中,PMG都能夠生成反映用戶偏好的個性化內容。
它可以為男性和女性生成不同風格的服裝圖片:
△圖4 服裝場景生成效果
為喜歡卡通片的觀眾生成卡通版電影海報:
△圖5 電影海報場景生成效果
為喜歡小動物的用戶生成小貓表情包:
△圖6 表情包場景生成效果
研究人員使用POG和MovieLens數據集對服裝和電影海報這兩個場景進行了量化評估。
評估方式是通過圖像相似度指標LPIPS和SSIM計算生成結果與用戶交互歷史以及與目標物品圖像之間的相似度,從而衡量其個性化程度以及與目標物品的符合程度。
PMG在這兩個指標上都表現出色,測試結果如下表:
此外,研究人員展示了對偏好隱向量的Case Study分析。
當只提供關鍵詞“鞋子,卡通”時,有一定可能形生成鞋子的卡通風格畫。然而,在加入偏好隱向量后,模型始終生成帶有卡通圖案的逼真鞋子。
如下,左圖為僅使用關鍵詞生成,右圖為同時使用關鍵詞和隱向量進行生成。
△圖7 偏好隱向量的Case Study
研究團隊通過用戶調研對該技術進行了評估,結果顯示,PMG生成的內容得分遠高于非個性化生成內容。
最后,團隊表示,個性化多模態生成技術目前處于早期探索階段,近期重量級的OpenAI與蘋果Siri合作的核心競爭力之一就是通過Siri的用戶數據來讓AI生成加入個性化,個性化多模態生成技術將成為AI的關鍵熱點趨勢。
我們相信這項技術將在未來擁有廣闊的應用前景和巨大的商業潛力,很快迎來爆發式增長。
論文鏈接:https://arxiv.org/abs/2404.08677
代碼鏈接:https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
本文轉自 量子位 ,作者:量子位
