把腳本變成視頻,人工智能只需要一步
Meta在一篇宣布這項工作的博客文章中表示:“生成式人工智能研究為人們提供了快速、輕松創建新內容的工具,從而推動了創造性表達的發展。只需幾句話或幾行文字,Make-A-Video就能將想象力賦予生命,創造出獨一無二的充滿生動色彩和風景的視頻。”
Meta首席執行官馬克·扎克伯格在Facebook上稱這項工作是“驚人的進步”,并補充說:“生成視頻比生成照片要困難得多,因為除了正確生成每個像素外,系統還必須預測它們將如何隨時間變化。”
這些視頻不超過5秒,不包含任何音頻,但包含了大量的提示。判斷模型性能的最佳方法是觀察它的輸出。不過目前不允許任何人訪問模型。這意味著這些片段可能是研發人員精心挑選出來的,以最好的方式展示這個系統。
同樣,雖然這些視頻顯然是計算機生成的,但這種人工智能模型的輸出在不久的將來將迅速提高。相比之下,在短短幾年的時間里,人工智能圖像生成器已經從創造難以理解的邊緣圖片發展到逼真的內容。盡管視頻的進展可能會因為這一主題的近乎無限的復雜性而緩慢,但無縫視頻生成的價值將激勵許多機構和公司向該項目投入大量資源。
與文本到圖像模型一樣,有可能也會產生有害的應用。
Meta在宣布Make-a-Video的博客中指出,視頻生成工具“對創作者和藝術家”來說可能是無價的。但是,就像從文本到圖像的模式一樣,前景也令人擔憂。這些工具的輸出可能被用于虛假信息、宣傳。
Meta表示,它希望“對如何構建這樣的生成式AI系統進行深思熟慮”,目前只發表了一篇關于Make-A-Video模型的論文。該公司表示,計劃發布該系統的演示版本,但沒有說明何時或如何限制對該模型的訪問。
值得一提的是,Meta并不是唯一一家致力于AI視頻生成器的機構。今年早些時候,清華大學和北京人工智能研究院(BAAI)的一組研究人員發布了他們自己的文本到視頻模型,命名為CogVideo。
Meta的研究人員在一篇描述該模型的論文中指出,Make-A-Video正在對成對的圖像和標題以及未標記的視頻片段進行訓練。培訓內容來自兩個數據集(WebVid-10M和HD-VILA-100M),這兩個數據集總共包含了數百萬個視頻,跨越數十萬小時的鏡頭。這包括由Shutterstock等網站創建并從網上抓取的庫存視頻片段。
研究人員在論文中指出,除了模糊的鏡頭和不連貫的動畫外,該模型還有許多技術局限性。例如,它們的訓練方法無法學習可能只有人類觀看視頻時才能推斷出的信息——例如,一個揮手的視頻是從左向右還是從右向左。其他問題包括生成超過5秒的視頻,包含多個場景和事件的視頻,以及更高的分辨率。Make-A-Video目前輸出16幀分辨率為64 * 64像素的視頻,然后使用單獨的人工智能模型將其尺寸提高到768 * 768。
Meta的團隊還指出,就像所有使用從網絡上抓取的數據訓練的人工智能模型一樣,Make-A-Video學習并可能夸大了社會偏見,包括有害的偏見。在文本到圖像的模型中,這些偏見通常會強化社會偏見。例如,讓一個生成一個“恐怖分子”的圖像,它很可能描繪的是一個戴著頭巾的人。然而,在沒有開放訪問的情況下,很難說Meta的模型學習到了什么偏見。
Meta表示,該公司“正在與技術社區公開分享這種生成式AI研究和結果,以獲得他們的反饋,并將繼續使用我們負責任的AI框架來完善和發展我們對這種新興技術的方法。”
隨著繪畫和視頻領域人工智能生成器逐漸火熱,相信很快(也許已經)就會出現其他藝術(比如音樂)的人工智能生成工具了。