Google人工智能技術“Transframer”可根據一張圖片創(chuàng)建短視頻
隨著技術的發(fā)展,研究人員繼續(xù)尋找新的方法來利用人工智能和機器學習能力。本周早些時候,Google科學家宣布創(chuàng)建了Transframer,這是一個新的框架,它能根據單一的圖像輸入來生成短視頻。這項新技術有朝一日可以增強傳統(tǒng)的渲染解決方案并使開發(fā)者能夠基于機器學習能力創(chuàng)建虛擬環(huán)境。
這個新框架的名稱(及在某些方面的概念)是對另一個基于人工智能的模型Transformer的點贊。Transformer最初于2017年推出,是一個新穎的神經網絡架構,它有能力通過建模和比較句子中的其他詞來生成文本。此后,該模型被納入了標準的深度學習框架如TensorFlow和PyTorch。
據悉,Transframer使用具有類似屬性的背景圖像,結合查詢注釋來創(chuàng)建短視頻。盡管在原始圖像輸入中沒有提供任何幾何數據,但產生的視頻在目標圖像周圍移動并將準確的視角可視化。
????
這項新技術使用Google的DeepMind人工智能平臺進行了演示,其功能是分析單一的照片背景圖像以此來獲得關鍵的圖像數據并生成額外的圖像。在這一分析過程中,系統(tǒng)確定了圖片的框架,這反過來又幫助系統(tǒng)預測圖片的周圍環(huán)境。
然后,語境圖像被用來進一步預測圖片從不同角度會出現的情況。預測根據數據、注釋及語境框架中的任何其他信息對額外圖像框架的概率進行建模。
該框架通過提供基于非常有限的數據集生成合理準確的視頻的能力,這標志著視頻技術的巨大進步。Transframer任務在其他跟視頻有關的任務和基準上也顯示出極有前景的結果,如語義分割、圖像分類和光流預測。
對基于視頻的行業(yè)如游戲開發(fā)可能具有潛在的巨大影響。目前的游戲開發(fā)環(huán)境依賴于核心渲染技術,如著色、紋理映射、景深和光線追蹤。像Transframer這樣的技術有可能通過使用人工智能和機器學習來構建他們的環(huán)境并與此同時來減少創(chuàng)建環(huán)境所需的時間、資源和精力以為開發(fā)者提供一個全新的開發(fā)路徑。