SEED-Bench:基于生成理解的多模態大語言模型基準測試(CVPR2024)
原創
摘要:基于強大的大語言模型(LLMs),最近的生成型多模態大語言模型(MLLMs)作為一個重要的研究領域,展示了在理解和生成方面的顯著能力。在這項工作中,我們引入了一個名為SEEDBench的基準測試,以評估MLLMs的生成理解能力,作為對生成模型進行全面評估的初步步驟。SEEDBench包含19,000道多項選擇題,配有精確的人類標注(是現有基準的6倍),涵蓋了包括圖像和視頻模態理解在內的12個評估維度。我們開發了一個先進的流程,用...