ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼

發(fā)布于 2024-3-28 14:23

瀏覽

0收藏

人類的語言是一種對復雜世界的高度簡潔的編碼，特別是語言中顏色的概念，成功地將原本極大的色彩空間（如256三次方真色彩空間）壓縮至5到10種顏色。受此啟發(fā)，來自上海交大，日本理化學研究所，東京大學的研究人員，提出全新的基于視覺任務的色彩量化（colour quantisation）技術(shù)，利用深度學習重現(xiàn)人類數(shù)萬年的顏色概念的演化。這項技術(shù)不但能推進文化人類學的研究，更是為網(wǎng)絡量化(neural network quantisation)以及多模態(tài)大語言模型提供堅實的研究基礎。目前大語言模型依賴于英語，中文等實際的語言，本工作通過模仿人類語言自然演化，為設計大預言模型-人類同步理解的人造語言打下了基礎。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

論文題目：

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer

論文鏈接：

??https://arxiv.org/abs/2212.03434??

項目主頁：

???https://github.com/ryeocthiv/CQFormer???

?一、研究背景

本工作旨在從機器學習的角度探討人工智能能否擁有類似人類的的顏色命名分類機制。人類對顏色的感知來自于光譜與眼睛中的錐細胞相互作用時，視神經(jīng)接收到的光刺激。通過定義像RGB，HSV等顏色空間，顏色被可量化成一些具體的如數(shù)值。與純生理性色調(diào)分類相比，顏色命名(colour naming)或顏色分類（colour categorisation）的復雜現(xiàn)象涉及多個學科。

從認知科學到人類學，研究發(fā)現(xiàn)，人類語言不斷演變以獲取新的顏色名稱，導致顏色命名系統(tǒng)越來越精細化。比如來自加納西北部的納凡拉語，1978年的時候只有如圖1.a所示的三種顏色(淺色（fiNge'）、暗色（wOO'）和溫暖或紅色（`nyiE'）)，但是到了2018年，該語言演化出了如圖1.b所示的另外七種顏色。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖1. 來自The evolution of color naming reflects pressure for efficiency: Evidence from the recent past Zaslavsky et al. Journal of Language Evolution, 2022

如圖2左圖所示，現(xiàn)有的研究認為這個演化過程來自于溝通效率(Communication efficiency)和知覺結(jié)構(gòu)(perceptual structure) 的雙重演化壓力。溝通效率要求通過盡可能少量的詞匯來準確傳達共享的顏色劃分。顏色知覺結(jié)構(gòu)與人類的顏色感知相關(guān)。例如，相鄰顏色之間的顏色空間距離應與它們的知覺差異相對應。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖2 左圖 - 人類語言的演化模型；右圖 - 我們實現(xiàn)的語言演化模型colour quantisation負責壓縮colour size, 后端任務負責提高溝通的準確性

在圖2右圖里，本項工作通過用檢測，分類等視覺任務的性能來定義溝通效率的方法，提出了一套基于QFormer全新的顏色量化（colour quantisation）算法。這個算法不但能整合人類和機器視覺的不同需求，更是一種人工顏色命名系統(tǒng)。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖3 (a) - 理論上的人類語言溝通準確率隨著顏色數(shù)量增加而逐漸提高直至飽和，圖中為各個文化中真實的顏色系統(tǒng)。(b) - 我們生成的顏色系統(tǒng)以及實際的分類準確率。

圖3（a）顯示了不同種類的真實人類語言的理論溝通效率隨著顏色名稱數(shù)量的提升而提高。令人驚訝的是，如圖3（b）所顯示，人工發(fā)現(xiàn)的顏色命名系統(tǒng)中，隨著顏色數(shù)量的增加，識別準確性也在提高。

CQFormer的方法如圖4所示，使用perceptual structure loss來定量控制來自perceptual structure的演化壓力。而用machine-centred loss 來表示Communication efficiency的壓力。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖4

二、本文方法

具體的方法如圖5所示，包括兩個分支：注釋分支和調(diào)色板分支。

注釋分支在將索引映射到對應的顏色調(diào)色板之前，為輸入的RGB圖像的每個像素注釋合適的量化顏色索引。通過一個新穎的調(diào)色板分支在整個RGB顏色空間中定位顏色調(diào)色板，該分支使用變換器的顯式注意力查詢檢測關(guān)鍵點。

在訓練階段，如圖5的紅線和黑線所示，調(diào)色板分支與輸入圖像和參考調(diào)色板查詢進行交互，通過減少感知結(jié)構(gòu)損失來維持知覺結(jié)構(gòu)。這種以感知為中心的設計將相似的顏色分組，并確保顏色調(diào)色板充分表示由世界顏色調(diào)查（WCS）顏色命名刺激網(wǎng)格定義的顏色命名系統(tǒng)。如圖5.(b)所示，調(diào)色板中的每個項目（用星號標注）位于WCS顏色命名概率圖中對應顏色分布的中間位置。最后，量化圖像傳遞給高級識別模塊進行機器準確性任務，如分類和檢測。通過CQFormer和隨后的高級模塊的聯(lián)合優(yōu)化，所提出的方法可以平衡感知和機器的需求。

除了自動發(fā)現(xiàn)顏色命名系統(tǒng)外， CQFormer還為極端壓縮圖像存儲提供了有效解決方案，同時在高級識別任務中保持高性能。例如，CQFormer在只有1位顏色空間（即，兩種顏色）的情況下，在CIFAR100數(shù)據(jù)集上實現(xiàn)了50.6%的top-1準確率。這種極低比特量化可以用于neural network quantisation研究，實現(xiàn)從圖像到權(quán)重和激活的端到端優(yōu)化。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖5 模型的網(wǎng)絡結(jié)構(gòu)

三、網(wǎng)絡結(jié)構(gòu)

具體來說，(1) 注釋分支，負責為輸入的RGB圖像的每個像素分配一個量化的顏色索引；(2) 調(diào)色板分支，負責生成一個合適的顏色調(diào)色板。CQFormer的注釋分支以原始圖像作為輸入，其中和分別是圖像的高度和寬度。在訓練階段，它生成一個概率圖，其中是量化顏色的數(shù)量，是Softmax函數(shù)的溫度參數(shù)。

在測試階段，它生成一個獨熱顏色索引圖

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

其中圖像的每個像素被分配為C個量化顏色中的一個單一顏色索引。

CQFormer的調(diào)色板分支接收原始圖像和參考調(diào)色板查詢作為輸入。這些查詢由個可學習的維度為的向量組成，每個向量表示一個自動挖掘的顏色。查詢與從輸入圖像生成的鍵和值進行交互，以生成顏色調(diào)色板。這個調(diào)色板由 C 個三元組組成，每個三元組表示機器發(fā)現(xiàn)的 C 種顏色中的一種。

最后，在訓練階段，CQFormer通過對和進行矩陣乘法來生成量化圖像。在測試階段，量化圖像由和得到。然后，將量化圖像饋送到高級識別模塊進行高級的視覺任務。

特別得注意的是，正如圖5中紅色線所示，由于arg max函數(shù)不可微分，訓練階段使用Softmax函數(shù)作為替代。為了防止過擬合，溫度參數(shù) 被納入Softmax函數(shù)中，將概率分布推向一個獨熱向量。

四、顏色演化

通過CQFormer，本工作探索了基于分類任務的顏色演化，包括兩個連續(xù)階段，使用不同的損失函數(shù)。由于CQFormer最初沒有與相應的人類語言相關(guān)聯(lián)的顏色命名系統(tǒng)的先驗知識，第一個嵌入階段旨在將某種語言的顏色感知知識嵌入到CQFormer的潛在表示中。

例如，CQFormer首先通過強制CQFormer輸出與Nafaanra對應的相似的WCS顏色概率圖來學習和匹配1978年的Nafaanra三色系統(tǒng)。如圖6所示，這里設計了兩個嵌入解決方案和損失函數(shù)，即LFull-Embedding和LCentral-Embedding，以將完整的顏色概率圖嵌入或僅將代表性顏色提煉到CQFormer中。

第二個演化階段讓CQFormer演化更多顏色，即在準確性和感知結(jié)構(gòu)的壓力下從學到的三色系統(tǒng)中分離出第四種顏色。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖6

五、實驗

本研究在主流的目標檢測任務和圖像分類任務的基準數(shù)據(jù)集上評估了CQFormer。此外，還專門設計了一個顏色演化實驗以展示CQFormer如何自動演化以增加細粒度的顏色。

表格1顯示了在MS COCO數(shù)據(jù)集上使用Sparse-RCNN檢測器進行目標檢測的結(jié)果。CQFormer在所有顏色量化級別（從1位到6位）下的AP值性能方面均優(yōu)于所有其他方法。這一顯著的改進表明了CQFormer在目標檢測任務中的有效性。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

圖7對四個數(shù)據(jù)集上的最新方法進行了比較。CQFormer（實線藍色線）在極低比特顏色空間（小于3位）上與所有其他方法相比都有持續(xù)明顯的改進。此外， CQFormer在從1位到6位的所有顏色量化級別下都比以任務為中心的方法ColorCNN表現(xiàn)更優(yōu)秀。

ICCV 2023 Oral | 人類語言演化中學習最優(yōu)圖像顏色編碼-AI.x社區(qū)

六、展望

雖然如圖3所示，機器發(fā)現(xiàn)的顏色概念的復雜性-準確性權(quán)衡與人類語言的分類對應的理論溝通效率極限非常相似，但當前的工作仍處于初步階段。新發(fā)現(xiàn)的WCS顏色概率圖與人類的顏色概率圖仍然存在很大差異。更準確的語言演化復制需要考慮更復雜的變量，如環(huán)境特異性、文化特殊性、功能需求、技術(shù)成熟度、學習經(jīng)驗和跨文化交流。

這次提出的工作除了對技術(shù)領(lǐng)域，也有望為人類學語言學領(lǐng)域里的普遍主義-相對主義（linguistic determinism vs relativity）爭論做出自己的貢獻。盡管沒有完全排除顏色方案的文化特異性，但這里機器的發(fā)現(xiàn)強烈支持了一種先天的、生理學原則對不同文化傳統(tǒng)社區(qū)的基本顏色術(shù)語的演化順序和分布可能性。從原始的“暗-亮-紅”顏色，人工智能獨立地發(fā)現(xiàn)了“綠-黃”類別，指向了神經(jīng)算法與人類認知的一致性，并為通過機器模擬在社會科學中測試有爭議的假設拓展了新的前沿。

目前大語言模型依賴于英語，中文等實際的語言，本工作期望跳出特定語言的藩籬，而是從人類語言自然演化本身出發(fā)，為設計大預言模型-人類同步理解的人造語言打下基礎。

Illustration From IconScout By Delesign Graphics

本文轉(zhuǎn)載自??將門創(chuàng)投??，作者：讓創(chuàng)新獲得認可 ????

標簽

語言

顏色編碼

圖像

贊

回復