MLLMs人類偏好增強對齊,自然圖像和數據圖表分離;視覺感知標記,模型自主決定感知內容
OmniAlignV:TowardsEnhancedAlignmentofMLLMswithHumanPreference20250225|SJTU,ShanghaiAILab,NJU,FDU,ZJU??54???http:arxiv.orgabs2502.18411v1????????https:huggingface.copapers2502.18411????????https:github.comPhoenixZ810OmniAlignV???研究背景與意義隨著多模態大語言模型(MLLMs)的快速發展,現有的研究主要集中在提升模型的基礎能力,如物體識別、OCR等,而在與人類偏好對齊方面存在顯著差...