好萊塢抵制AI的罷工事件,被AI反手寫進了最新一集劇本
今天以前,你可能還在為《權力的游戲》最后一季而失望。但想象一下,你現在能讓 AI 制作一個新的結局,以完全不同的方式進行,甚至可以把你自己作為主角或其他角色放進去。
最近,舊金山初創公司 Flable 推出了一個大型模擬項目「The Simulation」,并發布了名為「SHOW-1」的 Showrunner AI 技術,能夠生成以用戶為主角的全新劇集。
考慮到好萊塢的編劇和演員都在因為抵制 AI 而罷工,這個成果的發布時機顯得非常有趣。
圖片
論文鏈接:https://fablestudio.github.io/showrunner-agents/static/pdfs/To_Infinity_and_Beyond_SHOW-1_And_Showrunner_Agents_in_Multi_Agent_Simulations.pdf
在這項工作中,他們結合了大型語言模型(LLM)、定制擴散模型和多智能體模擬的能力,生成了高質量的新劇集內容,包括上下文關聯、故事進展和行為控制。
像 Showrunner AI 這樣的工具毫不費力地制作出不錯的內容,可以說確實威脅到了影視行業的創意人員。眼下,好萊塢的編劇和演員正在罷工,要求抵制潛在的 AI 侵襲。而這些剛剛發生的現實情節,卻已經被 AI 寫進了最新劇集之中,也算是一種反諷了:
如何生成新的劇集?
《South Park》是一部美國情景喜劇動畫片,開播于 1997 年,一經推出就獲得了巨大的成功,迄今已播出 26 季 325 集。該劇圍繞四個男孩 —— 斯坦 - 馬什(Stan Marsh)、凱爾 - 布羅夫洛夫斯基(Kyle Broflovski)、埃里克 - 卡曼(Eric Cartman)和肯尼 - 麥考密克(Kenny McCormick)以及他們在科羅拉多州小鎮及其周圍的經歷展開。
一個廣為人知的幕后故事是,這部劇的每一集都是在 6 天之內制作完成的。在開會腦暴之后,編劇寫出劇本,然后由動畫師、編輯、技術人員和音響工程師組成的整個團隊完成制作 —— 他們通常要在接下來的一周內工作 100-120 小時。
這種緊湊的制作流程在當代的影視行業中并不少見,但在生成式 AI 逐漸強大之后,情況將會發生變化。
想生成一集完整的新劇集,用戶可以向故事系統提供一個高層次的想法,通常包括標題、故事梗概和希望在一周模擬時間(大約 3 小時的游戲時間)內發生的主要事件。
在此基礎上,故事系統會利用模擬數據作為提示鏈的一部分,自動推斷出多達 14 個場景。劇務系統負責為每個場景挑選角色,以及如何通過情節模式推進故事。每個場景都與一個情節字母(如 A、B、C)相關聯,然后由節目編導在一集節目中交替使用不同的角色組,并跟蹤他們各自的故事情節,以保持用戶的參與度。
最后,每個場景只需定義位置、演員和每個演員的對話。在舞臺系統和人工智能攝像系統完成初始設置后,場景將根據劇情模式(如 ABABC)進行播放。每個角色的聲音都已事先克隆,每一句新的對白都會即時生成語音片段。
圖片
故事生成過程是模擬、用戶和 GPT-4 之間的共同任務。每個人都有自己的長處和短處,也都有自己獨特的角色,貢獻可以有不同的權重。
「The Simulation」通常提供基于 IP 的背景、角色歷史、情感、事件和地點,為最初的創作過程提供基礎。「用戶」引入自己的意圖,對智能體進行行為控制,并提供啟動生成過程的初始提示,還要充當最后的判斷者,在流程結束時對生成的故事內容進行評估。此外,「GPT-4」 作為主要的生成引擎,根據從用戶和模擬中接收到的提示來創建和推斷場景和對話。
這是一個共生的過程,每個參與方的優勢都能促成一個連貫、引人入勝的故事。本文以提示鏈為形式的多步驟方法還提供了制衡,減少了可能出現的不必要的隨機性,使其與 IP 故事原本的世界更加一致。
圖片
在流程上,創作者可以:1、讓「The Simulation」自動創建劇集;2、給一兩句話的提示;3、如果想了解細節,可以給出提示,然后逐個場景編輯對話場景并重新生成。
圖片
研究方法
該研究使用大語言模型 (LLM)、定制化 SOTA 擴散模型和多智能體模擬,實現情境化、故事進展和行為控制,最終為故事 IP 生成了高質量影視劇集內容。
現有的生成式 AI 系統,例如 Stable Diffusion(圖像生成模型)和 ChatGPT(大型語言模型),一般擅長完成短期(short-term)任務。然而,使用人工智能模型生成完整、有構思規劃的長篇故事和影視劇集具有廣泛的應用前景。
該研究的整體思路是將大型語言模型與圖像生成模型結合使用。其中大型語言模型主要使用的是 OpenAI 的 GPT-4 模型,圖像生成方面采用的是自定義的擴散模型。
大型語言模型
該研究大量使用 GPT-4 來影響模擬中的智能體并生成南方公園劇集的場景。由于《South Park》大部分劇集本身就是 GPT-4 訓練數據集的一部分,因此 GPT-4 已經對角色的個性、談話風格以及其整體幽默感有了很好的了解,無需定制微調模型。
為了模擬多步驟創意過程,該研究使用不同的提示鏈來比較和評估不同場景的事件,以及它們如何將整個故事推向令人滿意的、與 IP 一致的結局。
這模仿了人類頭腦風暴的過程,即通過多個不連續的步驟對創意進行構建和完善。通過利用 LLM 的生成能力和提示鏈提供的迭代完善功能,該研究有效地構建出了動態、詳細且引人入勝的故事。
例如,在創作 14 個不同的場景時,該研究先提供了一個概括性的提示,勾勒出總體敘事,然后再提供具體的提示,詳細說明和評估每個場景的角色、地點和關鍵情節。
擴散模型
為了訓練自定義的擴散模型,研究者從以往的劇集素材中收集了一個由大約 1200 個人物和 600 張背景圖片組成的綜合數據集,作為模型學習該劇風格的原材料。
為了訓練這些模型,研究者使用了 Dream Booth。訓練階段的結果是創建了兩個專門的擴散模型。
第一個模型專門用于生成以可摳像背景顏色為背景的單個角色。這有助于提取生成的角色進行后續處理和動畫制作,將新生成的角色無縫整合到各種場景和設置中。此外,角色擴散模型允許用戶通過圖像到圖像的 stable diffusion 過程,根據自己的長相創建一個角色,然后作為參與的智能體加入模擬。由于用戶可以克隆自己的聲音,因此很容易想象出一個基于用戶特有的長相、寫作風格和聲音而完全實現的自主角色。
圖片
第二個模型用來生成干凈的背景,尤其是外部和內部環境。模型為生成的角色提供了互動的「舞臺」,從而可以創建各種潛在的場景和情節。
圖片
由于這些模型的輸出是基于像素的,因此其生成的圖像在分辨率上存在固有的局限性。為了規避這一限制,研究者使用了 AI 升頻技術(特別是 R-ESRGAN-4x+-Anime6B)對生成的圖像進行了后期處理,完善并提升了圖像質量。
圖片
對于未來的 2D 交互,訓練基于 transformer 的定制模型使其能夠生成基于矢量的輸出,這一點具有很多優勢。與基于像素的圖像不同,矢量圖形在調整大小或縮放時不會降低質量,因此具有無限分辨率的潛力。這使得模型能夠生成無論以何種比例觀看都能保持質量和細節的圖像。
此外,基于矢量的圖形已經被分離成單獨的部分,解決了基于像素的透明度和分割等后處理問題,而這些問題使得將生成的資產集成到程序化世界構建和動畫系統中變得更加復雜。
圖片
解決延遲問題
當然,在這個過程中,有一些問題需要解決,比如延遲。
在實驗中,生成一個場景可能需要長達一分鐘的大量時間。由于是在游戲過程中生成劇集,因此生成時間大部分可以隱藏在用戶仍在與模擬或其他用戶界面交互的時刻。減少生成場景或情節所需時間的另一種方法是使用更快的模型,如 GPT-3.5-turbo,可用于質量和準確性要求不高的特定提示鏈。
下圖是 GPT-3.5-turbo 和 GPT-4 的響應時間對比。隨著模型和服務基礎架構的改進,以及其他因素(如因用戶需求高而導致的人為節流)的消除,生成速度在不久之后會有所提高。
圖片
在場景播放過程中,通過一個簡單的緩沖系統,至少一個語音片段是提前生成的,從而避免了與音頻生成有關的對話行之間不必要的停頓。這就意味著,當一個角色正在播放其語音片段時,下一個語音片段的網絡請求已經發出了,等待其生成、下載文件,然后等待當前發言人完成對話后再播放(延遲)。這樣,下一個對話行的語音片段就可以在沒有任何延遲的情況下發送。文本生成和語音克隆服務的速度越來越快,可以實現高度自適應和近乎實時的語音對話。
圖片
此外,研究者還表示,本文方法的亮點在于緩解了「老虎機效應」、「燕麥片問題」和「空白頁問題」等困擾傳統生成式 AI 系統的問題。更多研究細節,可參考原論文。
以前,AI 生成的內容通常被認為質量較低,但「The Simulation」卻提供了一種全新的可能。設想一下,如果迪士尼公開宣稱制作了一部完全由 AI 生成的電影呢?如果斯皮爾伯格單槍匹馬制作了一部 AI 電影呢?這種看法會不會立即改變,現在還真是很難說。