LLM合集:視頻生成新王炸!Step-Video-T2V,全方位碾壓開源與商業模型
1.StepVideoT2VTechnicalReport:ThePractice,Challenges,andFutureofVideoFoundationModel我們提出了StepVideoT2V,這是個有300億參數的超厲害的文本到視頻預訓練模型,它能生成有204幀那么長的視頻內容。為了做好視頻生成這個任務,我們專門設計了一個深度壓縮變分自動編碼器,也就是VideoVAE。它能把空間壓縮到16x16,時間上壓縮8倍,還能保證視頻重建的質量非常高。。用戶要是輸入提示內容,我們用兩個雙語文本編碼器來處理...