去哪兒國際酒店AI生成視頻實踐原創(chuàng)

發(fā)布于 2024-7-25 13:04

瀏覽

0收藏

嘉賓 | 鄭吉敏

編輯 | 李美涵

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

本文整理自去哪兒旅行技術(shù)總監(jiān)鄭吉敏在WOT2024大會上的主題分享，更多精彩內(nèi)容及現(xiàn)場PPT，請關(guān)注51CTO技術(shù)棧公眾號，發(fā)送【W(wǎng)OT】即可直接領(lǐng)取。

日前，在51CTO主辦的WOT全球技術(shù)創(chuàng)新大會上，去哪兒旅行技術(shù)總監(jiān)鄭吉敏帶來了主題演講《國際酒店AI生成視頻實踐》，圍繞著國際酒店的業(yè)務(wù)架構(gòu)，詳細(xì)介紹了生成視頻如何進行流程AI化以及相關(guān)實踐和思考，帶給觀眾全新的視野和獨家的經(jīng)驗分享。

本文將摘選其中精彩內(nèi)容，統(tǒng)一整理，希望為諸君帶來啟發(fā)。

本文將從以下四個部分展開：

視頻生成挑戰(zhàn)與機遇
專業(yè)影視生成流程AI化
AI生成視頻實踐
視頻生成成果展示與思考

1.視頻生成挑戰(zhàn)與機遇

我們首先來看看，國際酒店視頻生成所遇到的挑戰(zhàn)。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

隨著AIGC技術(shù)的發(fā)展，我們關(guān)注其在實際業(yè)務(wù)中的應(yīng)用。我們認(rèn)識到AIGC已具備生成視頻的能力，且我們的業(yè)務(wù)對此有相應(yīng)的需求。

因此，我們首先確定了使用AIGC生成視頻的場景。

接下來，我們考慮如何將視頻制作工程化，并確保視頻質(zhì)量。回到視頻本身，目前其核心元素有兩點：文案和圖片。我們需要審視現(xiàn)有的文案和圖片資源，通過組織這些內(nèi)容生成視頻，并以賦能現(xiàn)有業(yè)務(wù)作為終點。

在制作視頻時，我們面臨的第一個問題是素材選擇。我們手頭的素材已經(jīng)明確，包括基礎(chǔ)的文案、圖片信息和用戶點評，這些素材需要精心挑選并有效利用以生成視頻。

素材選擇的難點在于信息的篩選和利用。例如，酒店圖片質(zhì)量參差不齊，高星酒店的圖片通常更清晰，成為視頻的亮點，但并非所有酒店的圖片都具備這一特性。此外，用戶點評中包含多種語言，翻譯后的信息可能無法直接使用。

面對這些挑戰(zhàn)，我們需要找到解決方案，以確保視頻內(nèi)容的質(zhì)量和準(zhǔn)確性。

接下來談?wù)勌魬?zhàn)背后我們看到一些機遇。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

圍繞著國際酒店業(yè)務(wù)的異國風(fēng)情特征，我們沉淀了高度多樣化的信息。

對于觀眾觀看體驗來說，視頻不僅僅是展示酒店，更重要的是通過視頻傳達(dá)酒店所在區(qū)域的多樣性，以及與本地酒店不同的特色和定位。

我們面臨的問題是國際酒店視頻的制作是否能夠成功，以下是我列出一些可行性的數(shù)據(jù)支撐：

1. 國際酒店視頻覆蓋率低。在開始之前，我們發(fā)現(xiàn)國際酒店視頻的覆蓋率大約為19.6%，顯示了巨大的提升空間。

2. 視頻對轉(zhuǎn)化有明顯提升。去年，我們對高星酒店視頻進行了測試，結(jié)果顯示視頻顯著提高了用戶的轉(zhuǎn)化率。

3. 國內(nèi)酒店有視頻生成經(jīng)驗。國內(nèi)酒店已經(jīng)針對低星酒店生成了視頻，這驗證了我們已經(jīng)具備基礎(chǔ)的視頻制作能力。

基于這些基礎(chǔ)，我們確定了國際酒店視頻制作需要具備的三個基本特征：風(fēng)格多樣性、內(nèi)容多樣性和元素多樣性。

2.專業(yè)影視生成流程AI化

我們將專業(yè)影視生產(chǎn)流程簡化為四個關(guān)鍵步驟：

第一，策劃創(chuàng)意。

第二，分鏡創(chuàng)作。

第三，現(xiàn)場拍攝。

第四，后期剪輯。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

圍繞這四個過程，我們用上圖簡單介紹一下。

以上圖的片段為例，每個分鏡會有文案描述她的動作，并配有女生說的話或者內(nèi)心獨白來展現(xiàn)劇情。

通過這些元素的組合，我們能夠制作出一個連貫的影視片段。每個分鏡都由圖片或視頻、文案和語音組成，經(jīng)過后期剪輯，形成一個完整的小視頻。這是影視制作中的基本流程。

基于上述內(nèi)容，我們來看看，視頻制作流程的AI化。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

視頻本質(zhì)上由多個分鏡構(gòu)成的，每個分鏡都包含圖片、文案、配樂等核心元素。在AI的幫助下對素材進行加工，從而生成每個分鏡的內(nèi)容。

隨后，通過轉(zhuǎn)場動畫和特效，將各個分鏡流暢地拼接成一個完整的視頻。

3.AI生成視頻實踐

具體到AI生成視頻的實踐中，我們還會面臨一個問題，就是判斷視頻質(zhì)量高低的標(biāo)準(zhǔn)——如何生成一個用戶愿意觀看的內(nèi)容？

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

我們總結(jié)優(yōu)質(zhì)視頻有以下關(guān)鍵因素：

首先，我們強調(diào)價值趣味，這涉及到劇情設(shè)計和分鏡的構(gòu)思。我們需要考慮如何設(shè)計分鏡，以及是否有合適的模板來更好地連接每個分鏡。

緊接著是清晰畫質(zhì)，我們追求1080p甚至4K的高清標(biāo)準(zhǔn)，確保用戶在觀看時不會因為畫質(zhì)問題而感到不適。

最重要的，視頻的主題應(yīng)該是優(yōu)質(zhì)的。我們的目標(biāo)不僅是畫質(zhì)和設(shè)計方面的精良，更要傳達(dá)出酒店的亮點和特色，讓用戶通過視頻就能直觀感受到酒店的魅力。

最終，我們希望用戶在觀看視頻后，愿意分享視頻。

基于優(yōu)質(zhì)視頻的基礎(chǔ)元素，我們規(guī)劃了視頻生成的業(yè)務(wù)流程。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

第一步，素材選取。我們首先提取圖片和文字素材，并進行去重和高清處理，確保基礎(chǔ)素材的質(zhì)量。對于文字，特別是小語種，我們會進行翻譯和亮點抽取，以適應(yīng)不同語言環(huán)境的需求，達(dá)到實際可用的水平。

第二步，預(yù)處理階段。這個階段的目標(biāo)是讓圖片和文字滿足用戶的基本要求。我們還會根據(jù)需要，將文字輸入到大語言模型中，圖片則輸入到多模態(tài)大模型中，進行再加工。

第三步，分鏡制作。我們會大量運用運鏡和特效技術(shù)，模擬用戶實際觀察酒店的視角和動態(tài)效果。例如，對于酒店外景，我們會模擬用戶走近酒店的動作，使用拉近效果；對于房型圖片，則模擬用戶在房間內(nèi)的視線移動，通過左右遷移來增強現(xiàn)場感，讓用戶感覺身臨其境。此外，我們還會根據(jù)場景添加特效，如海島場景的疊化和模糊效果，夜晚場景的星星特效，營造更豐富的意境。

最后一步，模板剪輯合成。在這個階段，我們將每個分鏡與旁白結(jié)合，將完成的每個分鏡，利用多套模板進行合成，通過特效和音樂確保視頻的絲滑過渡，避免生硬感，最終生成一個完整的視頻。

接下來我們看一下從業(yè)務(wù)層面，來看整個視頻的生成。通常來講我們還是以每個分鏡作為我們的基礎(chǔ)單元，構(gòu)建以業(yè)務(wù)為核心的生產(chǎn)流程。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

在構(gòu)建業(yè)務(wù)模型時，底層的是AI技術(shù)的能力。這些能力包括文本預(yù)處理、圖片預(yù)處理、大語言模型、多模態(tài)模型以及分鏡制作和模板合成等，它們各自獨立，為自研提供通用能力。

這種設(shè)計的優(yōu)勢在于，一旦上層思路確定，我們可以自由決定使用適合的AI能力，個性化的適配不同酒店需求。

業(yè)務(wù)模型的上層，是業(yè)務(wù)規(guī)則。前面也提到過，國際酒店的地域文化差異顯著，我們采用定制化策略，使得視頻與酒店的定位相匹配，避免視頻的千篇一律。

接下來重點講下模板，模版讓我們以不同的方式組裝分鏡，業(yè)務(wù)的多樣性決定了我們模版的多樣性。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

目前核心模版分這幾類，商業(yè)簡約風(fēng)格、豪華&奢華風(fēng)格、海島風(fēng)情、日式風(fēng)格等等。

我們與公司的UI團隊展開合作，由他們設(shè)計相應(yīng)的模板，確保視頻展示方式與酒店的特色相匹配，從而提升視頻的整體效果。

通過這種方式，我們的平臺AI能力在多方面得到了有效沉淀。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

去哪兒網(wǎng)的業(yè)務(wù)線、算法和AI技術(shù)架構(gòu)是分開的，通常采用合作的方式來完成工作，因此我們會實現(xiàn)各AI能力的單獨擴展，由業(yè)務(wù)方自主選擇并以插件形式復(fù)用所需能力。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

這里包含文案處理、圖片處理等多種AI能力的插件。

接下來簡單講下，AI對于多語種翻譯的增強。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

我們的翻譯實踐表明，在處理27種語言時，傳統(tǒng)神經(jīng)網(wǎng)絡(luò)+深度學(xué)習(xí)雖然能實現(xiàn)基本的"信"（準(zhǔn)確傳達(dá)原意），但往往缺乏"達(dá)"（通順）和"雅"（情感和風(fēng)格）。

通過使用GPT-3.5，我們能夠提升翻譯質(zhì)量至7到8分，效果與使用谷歌翻譯差不多，如果使用GPT-4，效果還會更好。

小語種翻譯尤其受益于大型語言模型，但也要注意在成本上獲得平衡。

接下來說一下AI對多模態(tài)生成的加強。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

在生成視頻方面，我們主要嘗試過Pika和Runway平臺。基于Runway的Gen-2模型，通過精細(xì)調(diào)整參數(shù)并確保內(nèi)容符合物理邏輯，我們能夠創(chuàng)造出逼真的圖像，例如模擬真實的海浪動態(tài)。我們注意到，如果不進行特殊控制，生成的海浪可能不符合自然現(xiàn)象（上圖）。因此，我們在多模態(tài)生成中特別強調(diào)物理邏輯的準(zhǔn)確性。

目前，Runway在生成效果方面表現(xiàn)最強，盡管它的API接口尚未完全開放。一旦開放，預(yù)計將極大促進我們的多模態(tài)生成工作。

不過，即使有了強大的工具，參數(shù)的調(diào)整仍然非常關(guān)鍵。

4.視頻生成成果展示與思考

我們來看一下視頻生成的成果展示。

下面這個視頻是典型的簡約商務(wù)酒店風(fēng)格，通過左右移動，模擬用戶進入房間的觀看效果。（為方便展示，視頻經(jīng)過壓縮，原視頻清晰度為1080p）。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū)

接下來同樣是一個簡約商務(wù)酒店，這個酒店的特點是周圍的地標(biāo)建筑。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū)

在做簡約商務(wù)酒店的視頻時，還會進行元素定制，突出酒店的亮點、對用戶度假時特別關(guān)注的問題進行強調(diào)，例如位于普吉島的酒店是否有免費的無邊泳池等。

接下來是一個日式和風(fēng)酒店。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū)

接下來，是在AI能力基礎(chǔ)上，進行過簡單的人工加工的海島視頻。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū)

這里邊有了很多特效以及動態(tài)，讓觀看者能感受到輕松、浪漫的氣氛。

最后講一下視頻的數(shù)據(jù)結(jié)果，這是我們APP里的展現(xiàn)形式，默認(rèn)是在目前打開詳情頁的位置進行播放，上線后效果相對提升6%。

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

5.總結(jié)

去哪兒國際酒店AI生成視頻實踐-AI.x社區(qū) 圖片

在AI生成視頻的過程中，我們也踩過坑、積累了不少經(jīng)驗。比如，最開始我們會強調(diào)支持4K以提供高清體驗，但考慮到實際手機端的加載情況，最終選擇了1080p作為標(biāo)準(zhǔn)。

再比如，剛開始實踐時，我們執(zhí)著于使用旁白朗讀文案。但在實際測試中發(fā)現(xiàn)，優(yōu)美的背景音樂配合高清圖片更適合高端酒店。

在動畫和動態(tài)圖片的運用上，圖片的動態(tài)化會為吸引力加成，但是物理規(guī)律的準(zhǔn)確性特別重要。

展望未來，我們計劃在提供視頻生成能力的同時，實現(xiàn)對高端酒店的定制化覆蓋。我們將根據(jù)不同酒店的風(fēng)格定制視頻內(nèi)容，包括風(fēng)格、場景和亮點，并針對不同客群展示相應(yīng)酒店視頻，同時為運營團隊提供快速響應(yīng)市場的能力，為他們順利與酒店達(dá)成合作助力。

目前，生成一個視頻的成本大約是1.25元，時間大約在半分鐘到一分鐘左右，這是一個高效具備高成本效益的解決方案。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：李美涵

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

生成

視頻

贊

回復(fù)