MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)
原創
摘要交錯多模態理解與生成能力——使模型能夠以任意順序生成和解釋圖像與文本——已成為多模態學習的關鍵領域。盡管已有顯著進展,但對這一能力的評估仍顯不足。現有基準在數據規模、范圍和評估深度上存在局限,而當前評估指標往往成本高昂或帶有偏見,在實際應用中缺乏可靠性。為應對這些挑戰,我們推出MMIE,這是一個大規模知識密集型基準,用于評估大型視覺語言模型(LVLMs)的交錯多模態理解與生成能力。MMIE包含20,000個精...