成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

與「李白」賞圖賦詩,同「猴哥」直面天命,人大高瓴提出MMRole多模態角色扮演

人工智能 新聞
近日,中國人民大學高瓴人工智能學院的研究團隊率先提出了「多模態角色扮演智能體」(MRPAs)的概念。

代彥琪是中國人民大學高瓴人工智能學院的三年級博士生,師從盧志武教授,2022年畢業于大連理工大學軟件學院。他的研究興趣包括多任務學習、多模態大模型以及角色扮演智能體等領域,近期尤其關注多模態大模型指令微調中的多任務沖突問題。

隨著大語言模型的飛速發展,角色扮演智能體(RPAs)正逐漸成為 AI 領域的熱門話題。這類智能體不僅能夠為人們提供陪伴、互動和娛樂,還在教育、社會模擬等領域展現出重要的應用潛力。然而,當前市面上的大多數角色扮演智能體都只會「文字聊天」,其理解能力僅限于單一的文本模態,遠遠無法與具備多模態感知能力的人類相比。這讓我們不禁思考:我們真的只能與這些「單調」的智能體對話嗎?顯然,答案是否定的!

近日,中國人民大學高瓴人工智能學院的研究團隊率先提出了「多模態角色扮演智能體」(MRPAs)的概念。這類智能體不僅能夠扮演特定角色,還能夠圍繞圖像進行多模態對話。與此同時,團隊正式推出了 MMRole—— 一個專為 MRPAs 開發與評測量身打造的綜合框架。

圖片

  • 代碼倉庫:https://github.com/YanqiDai/MMRole
  • 論文地址:https://arxiv.org/abs/2408.04203

圖片

圖 1:MMRole 框架概述。

如圖 1 所示,該框架包括一個大規模、高質量的多模態角色扮演數據集 MMRole-Data,并配備了一套健全的評測方法 MMRole-Eval,涵蓋三個維度下的八項指標。在此基礎上,團隊開發了首個專門的多模態角色扮演智能體 ——MMRole-Agent,在多模態信息理解和角色扮演能力上明顯優于同等參數規模的通用對話模型。

MMRole 打破了傳統角色扮演智能體僅限于單一模態的局限,讓智能體能夠在圖像和文字之間自由切換,帶來更為沉浸的對話體驗,進一步擴展了角色扮演智能體的應用場景與價值。

MMRole-Data 數據集

如圖 1(a)所示,MMRole-Data 是一個大規模、高質量的多模態角色扮演數據集,包含 85 個角色及其身份信息、11K 張圖像,以及 14K 段圍繞圖像展開的單輪或多輪對話,共生成了 85K 條訓練樣本和 294 條測試樣本。在數據構建過程中,團隊借助了 GPT-4V 進行輔助生成,并執行了嚴格的人工質量審查,為角色扮演智能體的訓練和性能評測奠定了堅實基礎。

圖片

圖 2:MMRole-Data 中構建的所有角色。

如圖 2 所示,MMRole-Data 涵蓋了三種角色類型:虛構角色、歷史和公眾人物,以及假想現實角色。前兩類角色的身份信息由 GPT-4 通過總結 Wikipedia 或百度百科的人物介紹生成,而第三類角色的身份信息則通過 GPT-4 采用兩階段生成方式,在確保多樣性的基礎上隨機生成。前兩類角色在之前的研究中已有較多探討,團隊特別引入了第三類角色,旨在提升和評測 MRPAs 在并不廣為人知的角色上的性能,使其在多樣化角色扮演場景中展現出更強的靈活性與泛化性。

進一步地,MMRole-Data 引入來自 MS-COCO 數據集的通用圖像,確保了對廣泛視覺概念的覆蓋。同時,團隊還人工收集和標注了劇照等與角色密切相關的圖像,以更有效地喚起角色的個人經歷和情感。

圖片

圖 3:MMRole-Data 中三種對話場景的示例。

最后,如圖 3 所示,團隊利用 GPT-4V 生成了三類以圖像為中心的對話場景:評論性交互、用戶 - 角色對話,以及角色間對話。這些對話經過多輪規則過濾和嚴格的人工質量審查,確保了對話內容的準確性和角色一致性。

圖片

圖 4:MMRole-Data 中文示例。

特別地,如圖 4 所示,團隊對數據集的中文部分進行了精細打磨,成功再現了李白、孫悟空等經典人物的形象。通過深入挖掘這些角色的獨特個性和背景故事,MRPAs 能夠在多模態對話中更具表現力和沉浸感,為用戶帶來更加真實的互動體驗。

MMRole-Eval 評測方法

如圖 1(b)所示,MMRole-Eval 是一套穩健而全面的多模態角色扮演智能體評測方法,涵蓋三個維度下的八項評測指標,確保對智能體的多方面能力進行深入評估。具體的評測指標包括:

基礎對話技巧

  • 指令遵循度(Instruction Adherence, IA)
  • 流暢度(Fluency, Flu)
  • 連貫性(Coherency, Coh)

多模態理解能力

  • 圖文相關性(Image-Text Relevance, ITR)
  • 響應準確度(Response Accuracy, RA)

角色扮演質量

  • 性格一致性(Personality Consistency, PC)
  • 知識一致性(Knowledge Consistency, KC)
  • 語氣一致性(Tone Consistency, TC)

為了定量評估 MRPAs 在各項指標上的性能,團隊開發了一個專門的獎勵模型。該模型首先對待評估的 MRPA 與構建的標準答案之間的相對性能進行簡要的定性評價,隨后為其生成一個定量的分數對,MRPA 的最終得分為該分數對中兩個分數的比值。為了開發這一獎勵模型,團隊利用 GPT-4 在所有測試樣本上對多個 MRPAs 進行評測,生成了大量評測軌跡,這些軌跡隨后被轉換為獎勵模型的訓練和驗證數據。

評測結果與分析

圖片

表 1:MMRole-Eval 評測結果。In-Test 表示在訓練集中出現過的角色上的測試,而 Out-Test 表示在訓練集中未見過的角色上的測試。

如表 1 所示,團隊開發的首個專門的多模態角色扮演智能體 MMRole-Agent(9B)在各項指標上表現出了卓越的性能,整體性能遠超同等參數規模(<10B)的通用對話模型,甚至優于部分參數量更大(10B-100B)的模型。此外, MMRole-Agent 在未見過的角色上同樣展現出了強大的泛化能力。

圖片

圖 5:MMRole-Eval 評測結果的可視化。

此外,如圖 5 所示,團隊將評測結果進行了可視化分析,發現所有 MRPAs 在流暢度指標上均獲得了較高分數,表明生成流暢內容對于現有的大模型而言相對容易。然而,在其他評測指標上,尤其是性格一致性和語氣一致性指標,不同的 MRPAs 之間存在顯著差異。這說明,在多模態角色扮演智能體的開發中,多模態理解能力和角色扮演質量是更具挑戰性的方面,需要在未來的研究和優化中予以特別關注。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-06-28 10:11:41

Top Girl應用

2024-11-05 12:42:35

2024-12-27 13:30:00

2024-01-02 12:59:06

AI技術

2023-04-18 08:01:30

AI寫作時間

2022-06-16 16:19:12

模型神經網絡

2023-11-20 07:29:32

大模型人工智能

2024-11-04 09:35:00

2025-02-18 13:00:00

2023-04-14 13:58:17

代碼智能

2011-09-22 09:21:50

Qomo 3.0

2025-06-18 08:51:00

數據生成AI模型

2024-08-30 12:58:43

AI多模態技術

2023-09-20 08:37:33

語音翻譯同傳翻譯

2016-10-09 19:50:01

代碼審查

2011-06-27 09:42:46

2014-09-22 10:53:45

聯想陳旭東

2011-04-29 11:12:46

Ubuntu 11.0視頻

2025-06-09 08:50:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲第一在线 | 成人精品一区 | 久久久久国| 鲁大师一区影视 | 日本三级播放 | 成人精品一区二区三区 | 亚洲精品乱码8久久久久久日本 | 国产不卡在线 | 国产精品区二区三区日本 | 黑人中文字幕一区二区三区 | 精品一区二区三区在线观看国产 | 91精品国产91久久久久久不卞 | 91精品国产综合久久香蕉麻豆 | 久久国产精品一区二区三区 | 日韩第一区 | 亚洲精品一区二三区不卡 | 久草在线 | 亚洲一区二区三区免费视频 | 人人爽人人草 | 视频一区二区在线观看 | 中文字幕一区二区三区四区五区 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 91成人小视频 | 亚洲美女天堂网 | 中文字幕在线一区二区三区 | 91看片在线 | 久久99精品国产麻豆婷婷 | 日本午夜免费福利视频 | 日日噜 | avhd101在线成人播放 | 免费黄色av | 国产一区在线免费 | 一本综合久久 | 国产激情片在线观看 | 亚洲国产成人精品女人久久久野战 | 中文字幕亚洲无线 | 性欧美xxxx | 国产成人精品久久二区二区 | 福利久久 | 成人欧美一区二区三区黑人孕妇 | 欧美一区二区 |