幫視障人士“看見”圖片 字節(jié)跳動(dòng)最新視覺語言預(yù)訓(xùn)練模型入選ICML 2022
近日,字節(jié)跳動(dòng)AI Lab Research 團(tuán)隊(duì)推出一項(xiàng)視覺語言預(yù)訓(xùn)練模型,支持多模態(tài)的理解和生成,例如將畫面轉(zhuǎn)化為準(zhǔn)確、流暢的描述文字,幫助視障人士“看見”圖片。這項(xiàng)技術(shù)成果已入選人工智能國(guó)際頂級(jí)會(huì)議ICML 2022,并應(yīng)用于今日頭條App、大力智能燈等業(yè)務(wù)場(chǎng)景。
據(jù)了解,這個(gè)名為X-VLM 的模型在業(yè)內(nèi)首次提出學(xué)習(xí)多粒度的視覺和語言對(duì)齊,能為圖片生成更為精準(zhǔn)的描述,比如更正確地識(shí)別物體、描述物體間的關(guān)系。
信息無障礙研究會(huì)發(fā)布的報(bào)告顯示,超過90%的視障人士會(huì)使用智能手機(jī)了解外面的世界。此前,手機(jī)系統(tǒng)自帶的讀屏軟件已經(jīng)實(shí)現(xiàn)把屏幕上的文字念出來,幫助視障人士“讀”新聞、“看”文章。可遇到文章中的圖片,讀屏軟件往往無法識(shí)別,只能播報(bào)“圖片”二字。
采用了X-VLM 模型,今日頭條App可以自動(dòng)識(shí)別圖片,還能將它們“翻譯”成通順流暢的語句,并通過語音播報(bào)出來,助力視障人士解決讀圖難題。
值得一提的是,X-VLM可在模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)有限的情況下實(shí)現(xiàn)高效訓(xùn)練。數(shù)據(jù)顯示:僅216M參數(shù)量的X-VLM模型就能在圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成等廣泛的多模態(tài)任務(wù)上獲得十分優(yōu)秀的表現(xiàn)。目前,X-VLM在字節(jié)跳動(dòng)的真實(shí)應(yīng)用場(chǎng)景上的表現(xiàn)已超過一些業(yè)界領(lǐng)先的最新模型。
近年來,人工智能在助推無障礙環(huán)境方面發(fā)揮了重要作用。利用技術(shù)持續(xù)改進(jìn)無障礙與適老化體驗(yàn)是字節(jié)跳動(dòng)在公益方面的重要方向。除了在抖音系產(chǎn)品中不斷完善無障礙功能,字節(jié)跳動(dòng)還通過面向企業(yè)用戶的云服務(wù)平臺(tái)火山引擎,以技術(shù)輸出的方式,服務(wù)更廣泛的社會(huì)群體。
論文:Multi-Grained Vision Language
Pre-Training: Aligning Texts with Visual Concepts(??https://arxiv.org/abs/2111.08276??)
代碼:https://github.com/zengyan-97/X-VLM