黃仁勛提到的機器人世界,還需要AI數據來“調教” | CVPR 2024
本周,CVPR 2024正在美國西雅圖拉開序幕。今年CVPR論文投稿數再次創下新紀錄,可想而知本屆會議的火熱。
從研究主題來看,具身智能這一大熱點值得關注。
黃仁勛在COMPUTEX大會開幕前夕的演講中預言:AI的下一個浪潮將是物理AI。
即那些理解物理定律的AI機器人,尤其是人形機器人最有可能適應人類所構建的世界。
但隨之而來的問題是,這背后需要海量的數據支持,尤其是人形機器人更為明顯。因為人形機器人面臨的場景多樣,而且這些場景的數據采集不容易。
甚至有業界人士認為,當前具身智能最大的瓶頸就是缺乏數據。
其實不止于機器人場景,無論是構建具有強邏輯的AI模型,還是訓練像GPT-4這樣的大語言模型,都離不開大規模、高質量的數據集。
例如,GPT-4的模型訓練就動用了大約13萬億個tokens的數據集,這無疑是一個天文數字。
在這樣的數據需求下,我們自然會思考:
如此龐大的訓練數據究竟從何而來?
AI行業數據的瓶頸,何解?
基于龐大數據和超高算力的“暴力美學”,是當前生成式人工智能的核心打法,也是以OpenAI為代表的一眾企業的發展關鍵。
簡單來說,在同等條件下,喂的數據越多,人工智能就越強。
海量、優質的數據爭奪已經成為國家和企業間的無聲戰場?;跀底旨夹g形成的通用數據、優質數據壟斷,可能將成為這場數字拓荒當中,后發者無法逾越的天塹。在一定程度上可以說,掌握數據,就掌握了包括人工智能等眾多未來產業的主導權。
但是從真實世界獲取數據是一件困難重重的事。
Google在RT-1項目中的經歷就是一個例證,在雄厚的資金和科研資源支持下,Google團隊歷時17個月,僅收集到13萬條覆蓋700多個任務的機器人數據,這些數據的泛化能力遠未達到預期。
由此可見,獲取真實數據難度大、耗時長、成本高,同時還存在現實世界數據采集在隱私合規和數據安全方面的挑戰,難以滿足人工智能大模型訓練的需求,當前,“百模大戰”如火如荼,頭部企業競相投身人工智能賽道,但有效數據不足,特別是高質量數據短缺,部分領域封閉式的數據生態給人工智能發展帶來了掣肘。如何解決“數據瓶頸”是未來一段時期我們即將面臨——或已經面臨的挑戰。
如何應對挑戰,目前一家利用計算機技術生成數據的服務商非常值得關注,它是群核科技(酷家樂)創新實驗室Koolab孵化出的Coohom Cloud。
群核科技是國內最大的空間設計軟件平臺,Coohom Cloud利用其龐大的室內數據資源,結合高性能的渲染引擎和先進的數據處理技術,為AI行業“投喂”逼真且物理真實的2D、3D室內數據集等產品和服務。
群核科技平臺每天會生成40萬+3D設計方案,并沉淀了約3.6億個3D模型數據,涵蓋家具、電器、生活用品等,在此基礎上,群核科技與包括英國帝國理工大學、美國南加州大學浙江大學等高校聯手推出了多種數據集,為室內環境理解,3D重構,機器人交互等研究提供的強大數據基礎。
在2D圖片渲染技術上,Coohom Cloud利用自研渲染引擎,在多樣化的室內場景中,通過調整相機參數、行徑軌跡、燈光條件等設置進行圖片數據的采集,最終生成RGB、深度、語義、法向、點云等格式的2D數據集。這樣的數據輸出能力,使得Coohom Cloud每天能夠產出30萬組2D數據集,為AI智能體的導航、視覺感知、環境理解等能力提供了充足的訓練素材。
群核科技怎么解?低成本+高質量
成本更低是數據獲取必須要的優點,包括獲取成本和經濟成本,不少企業都在大量燒錢試圖通過海量數據來滿足AI模型訓練需求,高額的投入和預期的不確定性,讓資金的持續投入陷入困境。
為了提供更高性價比的數據服務方案,Coohom Cloud通過自研數據引擎,這是一套專為挖掘數據轉化而設計的高效工具,可以高效的將設計平臺沉淀數據庫轉化為AI訓練的燃料。它不僅能夠定制化輸出針對不同行業所需要的數據集,還能實現室內場景的數字化生成,與NVIDIA Isaac Sim、Unreal Engine、Blender等專業仿真器和渲染引擎無縫對接。
所有流程全部利用計算機技術實現,用戶對于數據的使用會更加便捷和直觀,無需再耗費大量人力物力去采集獲取數據,從而可以將更多的重心放在模型調優上。
當然,數據想要投入商用,除了數據量、成本優勢以外,更需要保證的是高質量,這將決定數據產業的未來發展面有多大。
在這一點上,Coohom Cloud是怎么考慮的呢?
1、物理性質增強
在人形機器人的發展道路上,環境交互能力是其智能化的關鍵。比如自如開關門、精準取放物體、甚至疊放衣物等。
以NVIDIA Isaac Sim仿真平臺項目為例,通過創建一個包含物理屬性的逼真3D環境,讓機器人能夠在虛擬世界中學習如何與物體互動、預測物理事件,甚至在虛擬世界中進行探索和導航。在這樣的虛擬環境中,機器人可以進行無數次的交互測試,無需擔心物理損傷或環境限制,從而大幅降低了訓練成本,同時提高了訓練的安全性和可重復性。
Coohom Cloud正是基于這樣的理念,利用Isaac Sim,Unreal Engine等為代表的的仿真平臺,為機器人訓練提供了定制化的場景和交互模型。這些數據不僅在視覺上逼真,更重要的是,它們具備真實的物理屬性——鉸鏈、滑軌等組件可以進行旋轉和平移,同時模型還擁有真實的密度、摩擦力和彈性等物理狀態信息。這使得機器人能夠在物理真實的虛擬環境下,以極低的成本獲取大量的訓練數據,測試并優化其性能。
2、場景環境增強
在AI的世界里,光線就像是那個決定成敗的細節,特別是在視覺感知任務中,光線條件對AI的識別和分析能力起著至關重要的作用。
拿上文提到的InteriorNet來說,這一大規模多傳感器真實感室內場景數據集,通過提供不同光照環境下的高真實感渲染圖像,展示了環境增強與多樣化在提升AI性能方面的重要性。服務類機器人在面對室內外光線變化時,可能會遇到識別障礙,因此,擁有一個涵蓋廣泛光照條件的數據集對于訓練AI以適應各種環境至關重要。
Coohom Cloud為虛擬室內場景中的每個燈源設定詳細參數,實現個性化的燈光環境控制,讓機器人在不同的光照環境下都能“看”得清清楚楚,學得明明白白。
除了光照條件的多樣性,Coohom Cloud還通過Domain Randomization技術,進一步增強了場景環境的復雜性,就像是給機器人的訓練場來了一場“大變身”。這項功能能夠根據不同的訓練需求,靈活切換模型的表面材質,比如將大理石地面替換為木質地板,調整不同反射效果,從而在虛擬環境中模擬出真實世界的多樣性和復雜性。讓機器人的訓練更加貼近現實,增強了它的適應性和泛化能力。
3、高效標注系統
AI領域中的數據標注是模型性能的關鍵因素,但傳統的人工標注方式勞動密集且耗時。
Coohom Cloud利用先進的合成數據生成技術,可以根據研究者需求定制化分割和標注數據。例如,處理臥室場景的3D模型時,系統能細分為床、枕頭、毛毯等基礎要素,并生成精準語義標簽,提高數據準確性并滿足需求,從而提升模型認知精度。這種方式不僅減少了人工標注工作量,也使研究者能更專注于模型創新和優化,提高數據處理效率,為AI技術發展注入新活力。
此外,在隱私、安全法規等問題上,Coohom Cloud采取的合成數據安全策略亦可以避免接觸任何真實用戶數據,安全審核機制用于檢查數據是否合規,并針對交付使用的數據進行相關授權管理,從而確保數據的安全使用。在生態鏈上,Coohom Cloud也串聯了優秀的設計者和研究者,針對AI需求,開發更高效的工具來促進設計生態向AI前沿融合。
產業級應用時刻,正在到來
可以看出數據服務已經從科研場景逐步走向市場化。也有越來越多玩家選擇加入。
不過在人工智能領域,數據的質量和應用的實際效果比盲目堆砌更為關鍵。那么,Coohom Cloud的海量室內數據集是如何落地到不同的行業場景中的呢?
2022年底,群核科技KooLab與英特爾實驗室、西班牙計算機視覺中心以及慕尼黑工業大學共同打磨的SPEAR智能仿真平臺,面向開發者全面開放,幫助開發人員加快對不同智能機器人的訓練和驗證。
在整個項目中,Coohom Cloud團隊提供超300個場景、超17000個模型,為仿真器的研究提供了數據上的神助攻,讓研究者能便捷的在虛擬環境中測試機器人性能。
英特爾首席科學家Mike Roberts贊嘆Coohom Cloud的高質量數據:
不僅加速了具身智能研究,還為仿真器項目的落地提供了全方位的數據保障。
再以清潔機器人產品為例,在室內為主的業務場景下,積累邊緣場景數據需要大量時間,這會直接影響到C端用戶的產品體驗,因此解決機器人場景邊緣場景問題成了產品提高競爭力的關鍵。
清潔機器人的邊緣場景主要包含一些難以收集的寵物糞便,果殼碎屑等障礙物,特殊狹窄的過道、高反光的地板玻璃以及強暗光環境下的數據等,以前為了采集數據,廠家得組建個數十人團隊,耗時數月,還得外包給第三方,整個過程繁瑣又燒錢,數據質量還不一定達標。
Coohom Cloud的方案,讓企業從模型素材到語義標注,再到數據結構處理全流程把控,為用戶關注的邊緣場景,專門打造特殊的室內虛擬環境,并通過調整光照參數,實現場景多樣性衍生,在45個工作日即生成了數萬組高質量的3D模型數據集和百萬組精細化圖片數據,數據交付即可用,幫助企業大幅減少數據側投入,提高AI項目進度。
當AI大模型和人形機器人成為科技界的熱議話題,數據已然成為了這個時代的核心資產。Coohom Cloud正以其強大的數據生成技術,為AI的多樣化應用需求提供支撐,推動行業向更廣泛的智能化發展邁進。