與「李白」賞圖賦詩，同「猴哥」直面天命，人大高瓴提出MMRole多模態角色扮演

作者：機器之心 2024-09-12 14:15:00

近日，中國人民大學高瓴人工智能學院的研究團隊率先提出了「多模態角色扮演智能體」（MRPAs）的概念。

代彥琪是中國人民大學高瓴人工智能學院的三年級博士生，師從盧志武教授，2022年畢業于大連理工大學軟件學院。他的研究興趣包括多任務學習、多模態大模型以及角色扮演智能體等領域，近期尤其關注多模態大模型指令微調中的多任務沖突問題。

隨著大語言模型的飛速發展，角色扮演智能體（RPAs）正逐漸成為 AI 領域的熱門話題。這類智能體不僅能夠為人們提供陪伴、互動和娛樂，還在教育、社會模擬等領域展現出重要的應用潛力。然而，當前市面上的大多數角色扮演智能體都只會「文字聊天」，其理解能力僅限于單一的文本模態，遠遠無法與具備多模態感知能力的人類相比。這讓我們不禁思考：我們真的只能與這些「單調」的智能體對話嗎？顯然，答案是否定的！

近日，中國人民大學高瓴人工智能學院的研究團隊率先提出了「多模態角色扮演智能體」（MRPAs）的概念。這類智能體不僅能夠扮演特定角色，還能夠圍繞圖像進行多模態對話。與此同時，團隊正式推出了 MMRole—— 一個專為 MRPAs 開發與評測量身打造的綜合框架。

代碼倉庫：https://github.com/YanqiDai/MMRole
論文地址：https://arxiv.org/abs/2408.04203

圖 1：MMRole 框架概述。

如圖 1 所示，該框架包括一個大規模、高質量的多模態角色扮演數據集 MMRole-Data，并配備了一套健全的評測方法 MMRole-Eval，涵蓋三個維度下的八項指標。在此基礎上，團隊開發了首個專門的多模態角色扮演智能體 ——MMRole-Agent，在多模態信息理解和角色扮演能力上明顯優于同等參數規模的通用對話模型。

MMRole 打破了傳統角色扮演智能體僅限于單一模態的局限，讓智能體能夠在圖像和文字之間自由切換，帶來更為沉浸的對話體驗，進一步擴展了角色扮演智能體的應用場景與價值。

MMRole-Data 數據集

如圖 1（a）所示，MMRole-Data 是一個大規模、高質量的多模態角色扮演數據集，包含 85 個角色及其身份信息、11K 張圖像，以及 14K 段圍繞圖像展開的單輪或多輪對話，共生成了 85K 條訓練樣本和 294 條測試樣本。在數據構建過程中，團隊借助了 GPT-4V 進行輔助生成，并執行了嚴格的人工質量審查，為角色扮演智能體的訓練和性能評測奠定了堅實基礎。

圖 2：MMRole-Data 中構建的所有角色。

如圖 2 所示，MMRole-Data 涵蓋了三種角色類型：虛構角色、歷史和公眾人物，以及假想現實角色。前兩類角色的身份信息由 GPT-4 通過總結 Wikipedia 或百度百科的人物介紹生成，而第三類角色的身份信息則通過 GPT-4 采用兩階段生成方式，在確保多樣性的基礎上隨機生成。前兩類角色在之前的研究中已有較多探討，團隊特別引入了第三類角色，旨在提升和評測 MRPAs 在并不廣為人知的角色上的性能，使其在多樣化角色扮演場景中展現出更強的靈活性與泛化性。

進一步地，MMRole-Data 引入來自 MS-COCO 數據集的通用圖像，確保了對廣泛視覺概念的覆蓋。同時，團隊還人工收集和標注了劇照等與角色密切相關的圖像，以更有效地喚起角色的個人經歷和情感。

圖 3：MMRole-Data 中三種對話場景的示例。

最后，如圖 3 所示，團隊利用 GPT-4V 生成了三類以圖像為中心的對話場景：評論性交互、用戶 - 角色對話，以及角色間對話。這些對話經過多輪規則過濾和嚴格的人工質量審查，確保了對話內容的準確性和角色一致性。

圖 4：MMRole-Data 中文示例。

特別地，如圖 4 所示，團隊對數據集的中文部分進行了精細打磨，成功再現了李白、孫悟空等經典人物的形象。通過深入挖掘這些角色的獨特個性和背景故事，MRPAs 能夠在多模態對話中更具表現力和沉浸感，為用戶帶來更加真實的互動體驗。

MMRole-Eval 評測方法

如圖 1（b）所示，MMRole-Eval 是一套穩健而全面的多模態角色扮演智能體評測方法，涵蓋三個維度下的八項評測指標，確保對智能體的多方面能力進行深入評估。具體的評測指標包括：

基礎對話技巧

指令遵循度（Instruction Adherence, IA）
流暢度（Fluency, Flu）
連貫性（Coherency, Coh）

多模態理解能力

圖文相關性（Image-Text Relevance, ITR）
響應準確度（Response Accuracy, RA）

角色扮演質量

性格一致性（Personality Consistency, PC）
知識一致性（Knowledge Consistency, KC）
語氣一致性（Tone Consistency, TC）

為了定量評估 MRPAs 在各項指標上的性能，團隊開發了一個專門的獎勵模型。該模型首先對待評估的 MRPA 與構建的標準答案之間的相對性能進行簡要的定性評價，隨后為其生成一個定量的分數對，MRPA 的最終得分為該分數對中兩個分數的比值。為了開發這一獎勵模型，團隊利用 GPT-4 在所有測試樣本上對多個 MRPAs 進行評測，生成了大量評測軌跡，這些軌跡隨后被轉換為獎勵模型的訓練和驗證數據。

評測結果與分析

表 1：MMRole-Eval 評測結果。In-Test 表示在訓練集中出現過的角色上的測試，而 Out-Test 表示在訓練集中未見過的角色上的測試。

如表 1 所示，團隊開發的首個專門的多模態角色扮演智能體 MMRole-Agent（9B）在各項指標上表現出了卓越的性能，整體性能遠超同等參數規模（<10B）的通用對話模型，甚至優于部分參數量更大（10B-100B）的模型。此外， MMRole-Agent 在未見過的角色上同樣展現出了強大的泛化能力。

圖 5：MMRole-Eval 評測結果的可視化。

此外，如圖 5 所示，團隊將評測結果進行了可視化分析，發現所有 MRPAs 在流暢度指標上均獲得了較高分數，表明生成流暢內容對于現有的大模型而言相對容易。然而，在其他評測指標上，尤其是性格一致性和語氣一致性指標，不同的 MRPAs 之間存在顯著差異。這說明，在多模態角色扮演智能體的開發中，多模態理解能力和角色扮演質量是更具挑戰性的方面，需要在未來的研究和優化中予以特別關注。

責任編輯：張燕妮來源：機器之心

智能體 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

與「李白」賞圖賦詩，同「猴哥」直面天命，人大高瓴提出MMRole多模態角色扮演

MMRole-Data 數據集

MMRole-Eval 評測方法

評測結果與分析