CVPR 2024最佳論文獎公布!生成式AI成最大贏家
CVPR 2024
本次CVPR共有來自全球的2719篇論文被接收,錄用率為23.6%,相較去年下降2.2%。可以看到,其他國內玩家也表現不俗,都有不少論文入選。
比如像騰訊優圖實驗室,此前曝光稱有20篇入選,覆蓋多模態、人臉識別、視覺分割等多個方向。
這周,CVPR2024在美國西雅圖正在進行中。
CVPR 2024 最佳論文獎
一共兩篇獲獎。
第一篇是Rich Human Feedback for Text-to-Image Generation
最近的文本到圖像(T2I)生成模型,如Stable Diffusion和Imagen,在基于文本描述生成高分辨率圖像方面取得了顯著進展。然而,許多生成的圖像仍然存在問題,例如偽影/不合理性、與文本描述不一致以及美學質量較低。受到在大型語言模型中使用人類反饋的強化學習(RLHF)取得的成功啟發,先前的研究收集了人類提供的對生成圖像的評分作為反饋,并訓練了獎勵模型以改善T2I生成。
在本文中,通過以下方式豐富反饋信號:(i)標記圖像中不合理或與文本不一致的區域,(ii)注釋文本提示中被誤代或遺漏在圖像上的單詞。我們在18000張生成的圖像上收集了這樣的豐富人類反饋(RichHF-18K),并訓練了一個多模態變壓器來自動預測這些豐富的反饋。我們展示了預測的豐富人類反饋可以用于改善圖像生成,例如通過選擇高質量的訓練數據對生成模型進行微調和改進,或者通過創建帶有預測熱圖的掩碼來修復問題區域。
值得注意的是,這些改進不僅適用于收集人類反饋數據的圖像生成模型(如Stable Diffusion的變體),還可以推廣到其他模型(如Muse)。RichHF-18K數據集將在我們的
GitHub倉庫發布:??https://github.com/google-research/google-research/tree/master/richhf_18k??
另一篇是Generative Image Dynamics
理論性更強,提出了一種基于圖像空間先驗的場景運動建模方法,可用于通過靜態圖像生成無縫循環視頻,還能實現與圖像中目標的交互。
文章提出了一種建模場景運動圖像空間先驗的方法。先驗是從展示自然振蕩動態(如樹木、花朵、蠟燭和風中飄動的衣物)的真實視頻序列中提取的運動軌跡集合中學習得到的。在傅里葉域中建模了稠密的長期運動,將其表示為頻譜體積,發現這種表示非常適合擴散模型的預測。在給定單張圖像的情況下,訓練的模型使用頻率協調的擴散抽樣過程來預測一個頻譜體積,然后可以將其轉換為覆蓋整個視頻的運動紋理。結合基于圖像的渲染模塊,預測的運動表示可以用于多種下游應用,例如將靜止圖像轉換為無縫循環的視頻,或者允許用戶與圖像中的對象進行交互,生成真實的模擬動態(通過解釋頻譜體積作為圖像空間的模態基礎)。更多結果請參見我們的項目頁面:generative-dynamics.github.io
CVPR 2024 最佳學生論文獎
一篇BioCLIP: A Vision Foundation Model for the Tree of Life,構建了TreeOfLife-10M這個大規模生物學圖像數據集,并提出BioCLIP基礎模型來學習生物分類的層次表示。
自然界的圖像,通過各種攝像設備收集,從無人機到個人手機,正在成為獲取生物信息的日益豐富的來源。計算方法和工具,尤其是計算機視覺,正在迅速發展,用于從圖像中提取與生物學相關的信息,用于科學研究和保護。然而,大多數這些方法都是為特定任務設計的定制方法,不易適應或擴展到新的問題、背景和數據集。現在正是需要一個面向圖像的通用生物學問題的視覺模型的時候。為了解決這個問題,研究人員策劃并發布了TreeOfLife-10M,這是迄今為止最大、最多樣化的面向機器學習的生物圖像數據集。然后,開發了BioCLIP,這是一個基于生命之樹的基礎模型,利用TreeOfLife-10M捕捉到的生物學獨特屬性,即植物、動物和真菌的圖像豐富多樣性,以及豐富的結構化生物知識的可用性。在多樣的細粒度生物分類任務上對我們的方法進行了嚴格的基準測試,并發現BioCLIP始終明顯優于現有的基線模型(絕對優勢為16%到17%)。內在評估顯示,BioCLIP已學習到符合生命之樹的分層表示,揭示了其強大的泛化能力。詳細信息可查看:https://imageomics.github.io/bioclip,該網站提供模型、數據和代碼。
另一篇是3D Gaussian Splatting領域的Mip-Splatting: Alias-free 3D Gaussian Splatting,通過引入3D平滑濾波器、用2D Mip濾波器替換2D膨脹濾波器來消除偽影和混疊等問題。
最近,3D Gaussian Splatting在新視角合成方面展示了令人印象深刻的結果,達到了高保真度和效率。然而,當改變采樣率,例如改變焦距或相機距離時,會觀察到明顯的偽影。我們發現,這種現象的根源可以歸因于缺乏3D頻率約束以及使用2D膨脹濾波器。為了解決這個問題,引入了一種3D平滑濾波器,根據輸入視圖引起的最大采樣頻率約束3D高斯基元的大小,從而在放大時消除高頻偽影。此外,用模擬2D box濾波器的2D Mip濾波器替換2D膨脹,有效地緩解了混疊和膨脹問題。我們的評估包括在單一尺度圖像上訓練和在多個尺度上測試的場景,驗證了我們方法的有效性。
本文轉自 AI生成未來 ,作者:AI生成未來
