這個CV數據集生成器火了,支持13類CV任務,DeepMind等打造
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
這年頭,AI玩家們想找到合適的圖像數據集,簡直是越來越難了。
不僅數據質量參差不齊,合適的數據類型也難找(如光流圖、深度圖等)。
為了解決這些問題,來自谷歌、MIT、DeepMind、MILA和劍橋大學等11家機構的34名研究人員,聯手打造了一個名叫Kubric的數據集生成器,不僅能自己渲染,而且圖像效果也非常真實。
不僅各種圖像數據都能做,像語義分割、深度圖或光流圖這種“特殊數據”都能一鍵生成:
還能控制渲染的真實度,渲染出的視頻可以達到以假亂真的效果:
據作者們表示,目前Kubric支持13類CV任務的數據類型生成,效果也不比用已有數據集訓練出來的差。
這樣的一個數據集生成器,到底要怎么上手?
可生成13類CV任務所需數據
先來看看這個Kubric數據集生成器究竟是個啥。
簡單來說,它有點像是一個專為圖像AI打造的“數據車間”,基于跨平臺開源物理引擎PyBullet和3D圖像渲染軟件Blender打造。
其中,PyBullet給用戶提供了一個模擬3D物體運動的平臺,例如兩個球之間的彈性碰撞參數就可以用它來模擬。(當然,除了PyBullet以外,也可以擴展到其他物理引擎如MuJoCo上)
Blender則是一個渲染3D動畫的平臺,但它的優勢在于操作方便,而且既可以做出照片級逼真的渲染圖像,也可以輸出3D動畫效果。(例如有設計師拿它設計服裝紋理)
可能這時候你會問,Kubric相比自己手動渲染視頻或圖像數據集,方便在哪?
一方面,Kubric自帶一系列預處理的基礎圖像數據庫。
除了11個基礎3D模型以外:
還內置了Google Scanned Objects(GSO)室內家具物品數據集中的一系列模型,以及包含背景、光照、材料紋理等參數的Polyhaven數據集,還有ShapeNet數據集等(包含55種常見的物品類型及51300個3D模型)。
也就是說,如果你對渲染不太了解,也能利用內置的數據庫快速生成想要的圖像。
另一方面,Kubric直接提供了從“渲染數據”到輸出“AI訓練數據”的管道,省去了將渲染圖像轉成特殊數據(如深度圖、光流圖)、或是額外收集如視場、相機參數、光照等數據的麻煩。
這也使得Kubric支持生成13類CV任務所需的圖像數據,具體包括光流、NeRF、姿態估計、3D重建等。
沒錯,即使這些生成的圖像中有2D也有3D類型,需要的數據量也從MB到TB級別不等,但Kubric都能滿足。
嗯,作者們還專門針對各種視覺任務,用Kubric生成的數據集一個個試了試,強調“用他們生成的數據集效果更好”。
△Kubric生成的光流圖
那么,這樣的數據集生成器究竟要怎么用呢?
自帶Python接口
作者提供了一些簡單的操作流程。
在安裝之后,第一步就是創建默認場景:
然后,再通過這兩步,分別創建一塊地板、和一個球體(也可以換成其他形狀):
接下來就是在場景中加一個照明,以及渲染攝像頭采集圖像:
導出文件后,就能獲取一個3D球體的圖像了:
△Blender中的效果
如果需要深度圖、灰度圖等特殊圖層的話,也是幾行代碼就能搞定:
比自己手動導出要更方便一些:
當然,如果還是感覺上手較難,作者也直接提供了示例代碼,改改參數就能用:
在原基礎上,再加5行代碼就能直接運行出動態視頻版:
看起來,做完數據集后,即使不懂渲染的也能成為半個行家了(doge)
目前新的一批內置數據集還在施工中,感興趣的小伙伴可以先上手試玩~
項目地址:
??https://github.com/google-research/kubric??
論文地址:
??https://arxiv.org/abs/2203.03570??