視頻生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

作者：機器之心 2023-12-20 15:26:13

人工智能新聞

蒙娜麗莎打哈欠，小雞學會舉鐵……谷歌VideoPoet大模型表現很亮眼。

2023 年底，科技公司都在沖擊生成式 AI 的最后一個關卡 —— 視頻生成。

本周二，谷歌提出的視頻生成大模型上線，立刻獲得了人們的關注。這款名為 VideoPoet 的大語言模型，被人們認為是革命性的 zero-shot 視頻生成工具。

VideoPoet 既可以文生視頻、圖像生視頻，又能風格遷移，視頻轉語音。從效果上看，它可以構建多樣化且流暢的運動。

消息一出，有很多人表示歡迎：看看目前的幾個成品效果不錯，大模型技術發展的速度也太快了。

有人對于這個大模型生成視頻的長度表示驚訝：

來源：https://twitter.com/cybersphere_ai/status/1737257729167966353

還有人表示這是一個革命性的大語言模型。

也有人呼吁，谷歌需要趕緊把 VideoPoet 開源了，大趨勢不等人。

隨著生成式 AI 的發展，最近出現了一波新的視頻生成模型，這些模型展示了令人驚嘆的畫面質量。當前視頻生成的瓶頸之一是產生連貫的大動作。但在許多情況下，即使是領先的模型也只能產生較小的運動，或者當產生較大的運動時，會表現出明顯的偽影。

為了探索語言模型在視頻生成中的應用，來自谷歌的研究者引入了一種大語言模型（LLM）VideoPoet，能夠執行各種視頻生成任務，包括文本到視頻、圖像到視頻、視頻風格化、視頻修復和擴展，以及視頻轉音頻。

VideoPoet 效果展示

文本生成視頻

提示：一只狗戴著耳機聽音樂，細節豐富，8k。

提示（從左到右）：一條從嘴里射出激光束的鯊魚；泰迪熊手牽著手走在雨天的第五大道上；舉鐵的小雞。

提示（從左到右）：黃色蒲公英花瓣制成的獅子在咆哮；地球表面發生大規模爆炸；一匹馬在梵高的星夜中馳騁；穿著盔甲的松鼠騎著鵝；熊貓在自拍。

圖像生成視頻

對于圖像到視頻，VideoPoet 可以獲取輸入圖像并通過提示將其動畫化。

蒙娜麗莎開始打哈欠，只要輸入一張圖片，外加一句提示：一個女人打哈欠。就會得到下面的效果。

提示（從左到右）：一艘船在波濤洶涌的大海上航行，有雷暴和閃電，油畫風格；飛過有許多閃爍星星的星云；大風天，一個拄著拐杖站在懸崖上的流浪者，俯視著下面浮動的云海。

將視頻風格化

VideoPoet 還能夠根據文本提示對輸入視頻進行風格化。

提示（從左到右）：泰迪熊在干凈的冰湖上滑冰；一只金屬色的獅子在熔爐的光芒下咆哮。

生成音頻

VideoPoet 還能夠生成音頻。首先讓模型生成 2 秒的剪輯，然后嘗試在沒有任何文本指導的情況下預測畫面的音頻。這樣一來，VideoPoet 能夠從單個模型生成視頻和音頻。

長視頻

VideoPoet 還能生成長視頻，默認是 2 秒。通過調節視頻的最后 1 秒并預測接下來的 1 秒，這個過程可以無限地重復，以生成任意時長的視頻。下面是 VideoPoet 從文本輸入生成長視頻的示例展示。提示：FPV 鏡頭展示了叢林中一座非常鋒利的精靈石城，有明亮的藍色河流、瀑布和大而陡峭的垂直懸崖面。

擴展視頻

用戶可以改變提示，從而擴展視頻。原始視頻是兩只浣熊騎著摩托車在松樹環繞的山路上行駛，8k。擴展后的視頻是兩只浣熊騎著摩托車，浣熊身后落下流星，流星撞擊地球并爆炸。

交互式視頻編輯

對于提供的輸入視頻（最左邊），用戶可以改變物體的運動來執行不同的動作。如下所示，中間三個沒有文本提示，最后一個文本提示為：煙霧背景下啟動。

視頻修復

VideoPoet 可以在視頻被遮住的部分添加細節，也可以選擇通過文本引導進行修復。

為了展示 VideoPoet 的功能，谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本是 Bard 編寫的，是關于一只旅行浣熊的短篇故事，并附有逐個場景的分解和附帶的提示列表。然后，谷歌為每個提示生成視頻剪輯，并將所有生成的剪輯拼接在一起以生成下面的最終視頻。

方法簡介

如下圖所示，VideoPoet 可以將輸入圖像動畫化以生成一段視頻，并且可以編輯視頻或擴展視頻。

在風格化方面，該模型接收表征深度和光流的視頻，以文本指導的風格繪制內容。

視頻生成器

使用 LLM 進行訓練的一個關鍵優勢是，可以重復使用現有 LLM 訓練基礎設施中引入的許多可擴展的效率改進。然而，LLM 是在離散 token 上運行的，這使得視頻生成具有挑戰性。而視頻和音頻 tokenizer 可以用來將視頻和音頻剪輯編碼為離散 token 序列，并且也可以轉換回原始表征形式。

通過使用多個 tokenizer（用于視頻和圖像的 MAGVIT V2 和用于音頻的 SoundStream），VideoPoet 訓練自回歸語言模型來學習跨視頻、圖像、音頻和文本的多個模態。一旦模型生成以某些上下文為條件的 token，就可以使用 tokenizer 解碼器將它們轉換回可視化的表征形式。

評估結果

研究團隊使用各種基準來評估 VideoPoet 在文本到視頻生成方面的表現，以將結果與其他方法進行比較。為了確保中立的評估，該研究在各種不同的 prompt 下運行了所有模型，沒有挑選示例，并要求人類評估者進行偏好評分。

平均而言，在遵循 prompt 方面，人們認為 VideoPoet 中 24-35% 的示例比競爭模型更好，而競爭模型的這一比例為 8-11%。評分者還更喜歡 VideoPoet 中 41-54% 的示例，因為生成視頻的動作更有趣，而其他模型的這一比例為 11-21%。

責任編輯：張燕妮來源：機器之心

AI 谷歌

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻生成可以無限長？谷歌VideoPoet大模型上線，網友：革命性技術

VideoPoet 效果展示

方法簡介

評估結果