本文回顧了多模態LLM(視覺語言模型)近一年來的模型架構演進,對其中有代表性的工作進行了精煉總結,截止2024.04,持續更新ing...ASurveyonMultimodalLargeLanguageModels(arxiv.orgabs2306.13549)AwesomeMultimodalLargeLanguageModels(github.comBradyFUAwesomeMultimodalLargeLanguageModels)這篇綜述一張圖總結了多模態LLM的典型架構:BLIP【2022.01發布】https:arxiv.orgabs2201.12086統一視覺語言理解和生成,使用capt...