火山引擎論文入選國際會議ACM MM'24｜對齊人類主觀偏好的圖像質(zhì)量評價方法

作者：流媒體技術(shù) 2024-12-23 16:16:39

本文提出了一種基于可定制指導(dǎo)的對齊人類主觀偏好的圖像質(zhì)量評價方法—Align-IQA，該方法能夠自適應(yīng)地對自然場景圖像、UGC圖像和AIGC圖像進行高效的質(zhì)量評估。

會議背景

2024年10月28日至11月1日，ACM Multimedia(ACM MM) 2024在澳大利亞墨爾本召開，該會議是中國計算機學(xué)會(CCF)推薦的多媒體領(lǐng)域的A類國際學(xué)術(shù)會議。2024年共4395篇參與審稿，最終錄用1149篇論文，錄用率26.1%。

火山引擎-流媒體技術(shù)與湖南工商大學(xué)、湘江實驗室合作的論文"Align-IQA: Aligning Image Quality Assessment Models with Diverse Human Preferences via Customizable Guidance" 被ACM Multimedia 2024 收錄。

論文鏈接：https://openreview.net/pdf?id=CdA18J5jJx

論文方案

論文背景

圖像質(zhì)量評價（Image Quality Assessment, IQA）是圖像處理和計算機視覺領(lǐng)域中的一項重要任務(wù)，旨在模擬人類視覺系統(tǒng)對圖像質(zhì)量的感知過程，構(gòu)建與人類主觀判斷盡可能一致的客觀質(zhì)量評價算法。最初，IQA的研究主要聚焦于評估經(jīng)過特定處理（如壓縮、模糊或添加噪聲）的自然場景圖像、之后逐步擴展到用戶生成內(nèi)容（User-Generated Content, UGC）（如使用智能手機等電子設(shè)備拍攝的圖像），以及近年來流行的人工智能生成內(nèi)容（AI-Generated Content, AIGC）（如通過文本到圖像模型生成的圖像）。為了應(yīng)對這些不同類型的圖像內(nèi)容的質(zhì)量評估需求，研究者們投入了大量精力，提出了多種IQA方法。然而，由于人類對于不同類型的圖像內(nèi)容的偏好存在差異，如何使得IQA模型與這些偏好保持一致，依然是一個亟待解決的挑戰(zhàn)。盡管現(xiàn)有的IQA方法通過利用預(yù)訓(xùn)練模型中的知識，在評估特定圖像內(nèi)容（自然場景圖像、UGC圖像）方面取得了重大成功，但由于影響最終評估結(jié)果的復(fù)雜因素眾多，以及這些方法所特有的、精心設(shè)計的網(wǎng)絡(luò)架構(gòu)，它們在準(zhǔn)確捕捉人類對新型的圖像內(nèi)容（AIGC圖像）的偏好方面仍存在不足。

基于可定制指導(dǎo)的對齊人類主觀偏好的圖像質(zhì)量評價方法——Align-IQA

為了解決現(xiàn)有的IQA方法在準(zhǔn)確捕捉人類對新穎圖像內(nèi)容的偏好方面的不足，本文提出了一種基于可定制指導(dǎo)的對齊人類主觀偏好的圖像質(zhì)量評價方法——Align-IQA。該方法能夠針對不同類型的圖像內(nèi)容，生成與人類偏好高度一致的質(zhì)量評分。

可定制指導(dǎo)注入模塊

在對自然場景圖像、UGC圖像和AIGC圖像進行質(zhì)量評估時，人類能夠根據(jù)自身的知識和經(jīng)驗靈活地調(diào)整評估標(biāo)準(zhǔn)。對于自然場景圖像和UGC圖像，人類評估的重點是圖像的視覺保真度；而對于AIGC圖像，除了視覺保真度之外，人類還會關(guān)注圖像與文本提示之間的語義一致性。為此，本文提出了一種可定制指導(dǎo)注入模塊（Customizable Guidance Injector, CGI），旨在根據(jù)不同類型的圖像內(nèi)容（自然場景圖像、UGC圖像和AIGC圖像）引入相應(yīng)的人類先驗知識，從而使得同一個質(zhì)量評價模型能夠針對這些不同類型的圖像內(nèi)容進行自適應(yīng)評估。

具體而言，對于自然場景圖像和UGC圖像，CGI模塊通過引入視覺顯著性特征作為指導(dǎo)，來幫助模型提取與質(zhì)量感知相關(guān)的特征；對于AIGC圖像，CGI模塊則通過引入圖像和文本提示之間的語義一致性特征，來引導(dǎo)模型提取與質(zhì)量感知相關(guān)的特征。

多尺度特征聚合模塊

在人類視覺系統(tǒng)中，有許多視覺特性影響著人類對圖像質(zhì)量的感知。為了構(gòu)建一個能更貼近人類視覺感知的圖像質(zhì)量評價模型，本文提出了一種多尺度特征聚合模塊（Multi-scale Feature Aggregator, MSFA）。該模塊通過模擬人類視覺系統(tǒng)的多尺度機制，能夠更全面且有效地提取與質(zhì)量感知相關(guān)的特征。同時，它還結(jié)合了深度可分離膨脹卷積，以較少的參數(shù)高效地實現(xiàn)多尺度信息的提取和融合工作。

實驗結(jié)果

在八個公開數(shù)據(jù)集（四個自然場景圖像數(shù)據(jù)集：LIVE、CSIQ、TID2013和KADID-10K；兩個UGC圖像數(shù)據(jù)集：CLIVE和KonIQ-10K；兩個AIGC圖像數(shù)據(jù)集：AGIQA-1K和AGIQA-3K）上的實驗結(jié)果顯示，Align-IQA能夠針對不同類型的圖像內(nèi)容，生成與人類偏好高度一致的質(zhì)量評分。這充分驗證了Align-IQA的有效性和普適性。

總結(jié)

本文提出了一種基于可定制指導(dǎo)的對齊人類主觀偏好的圖像質(zhì)量評價方法—Align-IQA，該方法能夠自適應(yīng)地對自然場景圖像、UGC圖像和AIGC圖像進行高效的質(zhì)量評估。為了實現(xiàn)這一適應(yīng)性評估，本文提出了一個可定制指導(dǎo)注入模塊，用于根據(jù)不同類型的圖像內(nèi)容引入相應(yīng)的人類先驗知識。此外，為了更準(zhǔn)確地從人類視覺感知的角度預(yù)測圖像的質(zhì)量評分，本文提出了一個多尺度特征聚合模塊。實驗結(jié)果表明，Align-IQA在涵蓋多種圖像類型的八個公開數(shù)據(jù)集上，達到了優(yōu)于或與SOTA方法相當(dāng)?shù)男阅堋?/p>

責(zé)任編輯：龐桂玉來源：字節(jié)跳動技術(shù)團隊

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看