OpenAI推出文本到視頻AI生成器Sora
OpenAI推出了Sora,加入了文本到視頻的人工智能內容生成競賽。Sora可以根據用戶的提示生成長達一分鐘的視頻。
該公司展示了幾段用Sora制作的令人印象深刻的視頻,包括一名女子走在東京的街道上,以及淘金熱時代加利福尼亞的歷史鏡頭。
目前推出的是面向公眾的Sora預覽版,但也可供特定群體使用,比如安全專家和創作者。該公司允許某些個人接觸,以獲得關于如何推進該模型以對創意專業人士最有幫助的反饋。總體發布日期尚未公布。
該公司表示:“我們正在與‘紅隊’合作,‘紅隊’是錯誤信息、仇恨內容和偏見等領域的專家,他們將對該模型進行對抗性測試。”“我們還在開發一些工具來幫助檢測誤導性內容,比如檢測分類器,它可以分辨出視頻是何時由Sora生成的。”
OpenAI并不是第一家推出這類技術的公司。Meta、谷歌和其他幾家公司已經或正在推出各自版本的同類產品。市場上一些最流行的解決方案包括Stability AI, Runway, Pika和Google Lumiere。然而,行業分析人士指出,Sora的視頻質量比大多數競爭對手都要好。也許,這就是為什么Sora的演示引起了如此多的熱議和炒作。
根據OpenAI的說法,與其他模型相比,Sora的優勢在于它具有驚人的真實感,并且能夠從簡短的提示中生成更長的視頻片段。Sora基于對語言的深刻理解,使其能夠理解提示并生成角色和情感。
Sora演示展示了它從幾個單詞生成視頻的能力,然而,它沒有顯示它從單個圖像或一系列畫面生成視頻的能力。
Sora的推出令人興奮,但也引發了一些擔憂。這種技術可以用來制造深度偽造和傳播錯誤信息。我們可以預期Sora對內容有一些限制,包括不合適的真人或使用平臺創建包含色情或暴力的內容。
DALL-E團隊的首席研究員兼負責人Aditya Ramesh說:“解決錯誤信息的辦法需要我們在一定程度上采取緩解措施,但也需要社會和社交媒體網絡的理解來適應。”
對Sora的另一個擔憂是,它可能侵犯他人的版權作品。雖然OpenAI聲稱訓練數據來自授權或公開可用的內容,但對于什么是“公開可用”總是存在一些模糊。如果OpenAI不能解決這個問題,他們可能會面臨許多針對他們的訴訟。
Sora在精確模擬復雜場景的物理效果方面也存在一些問題。例如,它可能會混淆提示的空間細節。
Sora將賦予普通用戶使用文本制作人工智能視頻的能力。雖然文本到視頻技術在威脅到影視制作行業之前還有很長的路要走,但這些可能也會導致娛樂行業重大顛覆。
目前,OpenAI還沒有想得那么遠。該公司將專注于通過拒絕不適當的內容和錯誤信息,并根據C2PA準則(C2PA是一個開放的技術標準,它允許發布者、公司和其他人在媒體中嵌入元數據,以驗證其來源和相關信息。C2PA不僅適用于人工智能生成的圖像,相機制造商、新聞機構和其他機構也采用了同樣的標準來證明媒體內容的來源和歷史或出處。)對Sora制作的視頻進行標記,確保其后續改善平臺的基本安全功能。