把整個地球裝進神經網絡,北航團隊推出全球遙感圖像生成模型
北航的研究團隊,用擴散模型“復刻”了一個地球?
在全球的任意位置,模型都能生成多種分辨率的遙感圖像,創造出豐富多樣的“平行場景”。
而且地形、氣候、植被等復雜的地理特征,也全都考慮到了。
受Google Earth啟發,北航的研究團隊從俯拍視角出發,將整顆地球的衛星遙感影像“裝進”了深度神經網絡。
基于這樣的網絡,團隊構建出了覆蓋全球的俯視視角視覺生成模型MetaEarth。
MetaEarth擁有6億參數,可實現多種分辨率、無界且覆蓋全球任意地理位置的遙感圖像生成。
覆蓋全球的遙感圖像生成模型
相比于此前的研究,構建世界范圍的視覺生成基礎模型更具挑戰性,過程之中克服了多個難點。
首先是模型容量的挑戰,因為地球具有城市、森林、沙漠、海洋、冰川和雪地等廣泛的地理特征,需要模型能夠理解并表征。
即使是同一類型的人造地物,在不同的緯度、氣候和文化環境下,也會表現出巨大差異,這對生成模型的容量提出了很高的要求。
MetaEarth成功解決了這一困難,實現了不同地點、地貌的高分辨率、大范圍場景生成。
另外,實現分辨率可控的遙感圖像生成,同樣是一項挑戰。
因為在俯拍圖像成像過程中,地物特征的展現受分辨率影響很大,在不同圖像分辨率下具有明顯的差異,難以具備在指定分辨率(米/像素)下精準生成的能力。
而在MetaEarth生成不同分辨率的圖像時,都能準確合理地呈現地物特征,而且不同分辨率之間的關聯性也得到了精確對應。
最后是無界圖像生成的挑戰——與日常自然圖像不同,遙感圖像具有超大幅寬的特性,邊長可能達到數萬像素,此前的方法都難以生成連續、任意大小的無界圖像。
但MetaEarth生成的連續無界場景,避開了這一缺陷,可以看到隨著“鏡頭”的平移圖像的移動十分絲滑。
此外,MetaEarth具有強大的泛化性能,能夠以未知場景作為條件輸入級聯生成多分辨率圖像。
例如,將GPT4-V生成的“潘多拉星球”作為初始條件輸入模型,MetaEarth仍然能夠生成具有合理地物分布和逼真細節的圖像。
下游任務上的驗證結果表明,MetaEarth作為一種全新的數據引擎,有望為地球觀測領域各類下游任務提供虛擬環境和訓練數據支持。
實驗過程中,作者選擇了遙感圖像分類這一基礎任務進行驗證,結果顯示,MetaEarth所生成的高質量圖像的輔助下,下游任務分類精度有顯著提升。
作者認為,MetaEarth有望為衛星等空天無人系統平臺提供一個逼真的虛擬環境,并在城市規劃、環境監測、災害管理、農業優化等領域廣泛應用;
除了作為數據引擎之外,MetaEarth在構建生成式世界模型方面也具有巨大潛力,為未來的研究提供新的可能。。
那么,MetaEarth究竟是如何實現的呢?
6億參數擴散模型“復刻”地球
MetaEarth基于概率擴散模型構建,具有超過六億的參數規模。
為支持模型訓練,團隊收集了一個大型遙感圖像數據集,包含覆蓋全球大多數地區的多個空間分辨率的圖像及其地理信息(緯度、經度和分辨率)。
在本項研究中,作者提出了一種分辨率引導的自級聯生成框架。
△MetaEarth的整體框架
在該框架下,僅用單一模型即可實現給定地理位置的多分辨率圖像生成,并在每一級分辨率下創造出豐富多樣的“平行場景”。
具體來說,這是一種編解碼器結構的去噪網絡,將低分辨率條件圖像和空間分辨率編碼后與去噪過程的時間步嵌入相結合,預測每個時間步的噪聲,實現圖像生成。
為了生成無界的任意大小圖像,作者還設計了一種內存高效的滑動窗口生成方法和噪聲采樣策略。
該策略將生成的圖像切分成重疊的圖像塊作為條件,通過特定的噪聲采樣策略,使相鄰圖像塊的共享區域生成相似的內容,從而避免拼接縫隙。
此外,這種噪聲采樣策略,也使得模型能在實現任意尺寸的無界圖像生成時,消耗更少的顯存資源。
團隊簡介
本研究的作者來自北京航空航天大學的“學習、視覺與遙感實驗室”(LEarning, VIsion and Remote sensing laboratory,LEVIR Lab),實驗室由國家杰青史振威教授領導。
史振威教授曾經的博士生、密歇根大學博士后,現任該實驗室成員的鄒征夏教授,是本文的通訊作者。
論文地址:https://arxiv.org/abs/2405.13570
項目主頁:https://jiupinjia.github.io/metaearth/