簡(jiǎn)單卻強(qiáng)大!端到端視覺(jué)Tokenizer調(diào)優(yōu)讓多模態(tài)任務(wù)性能飆升!智源&盧湖川團(tuán)隊(duì)等發(fā)布ETT
文章鏈接:https:arxiv.orgpdf2505.10562亮點(diǎn)直擊提出了一種新的視覺(jué)分詞器訓(xùn)練范式,以釋放視覺(jué)分詞器在下游自回歸任務(wù)中的潛力。該視覺(jué)分詞器能夠感知并針對(duì)下游訓(xùn)練進(jìn)行優(yōu)化。引入了一種簡(jiǎn)單而有效的端到端視覺(jué)分詞器調(diào)優(yōu)方法ETT。ETT利用分詞器的碼本嵌入而不僅限于離散索引,并應(yīng)用詞級(jí)描述損失來(lái)優(yōu)化視覺(jué)分詞器的表示。ETT顯著提升了基于下一詞預(yù)測(cè)范式的下游任務(wù)結(jié)果,包括多模態(tài)理解和生成任務(wù),同時(shí)保持了分詞器的重建...