OpenGVLab新作:VisionModelPretrainingonInterleavedImageTextDataviaLatentCompressionLearningGithub:??https:github.comOpenGVLabLCL??Paper:https:arxiv.orgabs2406.07543視覺backbone的數據瓶頸CLIP是第一個連接圖像和文本的基礎模型,但在大模型時代,僅憑對比學習的監督,已經不足夠讓下游視覺語言模型(VLM)取得足夠好的性能,尤其是在OCR等細粒度、高分辨率視覺任務上。而且這類方法通常要求圖像和文本數據嚴格...