StreamingT2V: テキストから長尺ビデオへのダイナミックでスケーラブルな生成

Trae

はじめに

StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトであり、テキスト記述に基づく、首尾一貫した、ダイナミックでスケーラブルな長尺動画の生成に焦点を当てている。この技術は、説明テキストに密接に対応し、高フレーム品質の画像を維持する時間的に一貫性のあるビデオを保証する高度な自己回帰的アプローチを使用しています。最大1200fps、長さ2分までの動画を生成することが可能で、より長時間に拡張できる可能性がある。この手法の有効性は、特定のText2Videoモデルによって制限されることはありません。つまり、モデルを改善することで、ビデオの品質がさらに向上します。

ストリーミングT2Vオンライン体験

 

StreamingT2V:从文本到长视频的动态且可扩展的生成技术

 

機能一覧

最大1200fps、長さ2分までのビデオ生成に対応。
ビデオと高フレーム品質の画像の時間的一貫性を維持
テキスト説明に密接に対応したダイナミックなビデオ生成
複数のベースモデルアプリケーションをサポートし、生成されるビデオの品質を向上させる。
テキストからビデオ、画像からビデオへの変換をサポートする
グラディオ・オンライン・デモの提供

 

 

ヘルプの使用

プロジェクトのリポジトリをクローンし、必要な環境をインストールする。
ウエイトをダウンロードし、正しいカタログに配置する。
テキストからビデオ、または画像からビデオへの変換のサンプルコードを実行する
詳細な結果やデモについては、プロジェクトのページをご覧ください。

 

推論時間

 

ベースモデルとしてのModelscopeT2V

 

フレームレートプレビュー推論時間の短縮(256×256)最終結果の推理時間(720×720)
24フレーム40秒。165秒
56フレーム75秒360秒
80フレーム110秒。525秒
240フレーム340秒1610秒(約27分)
600フレーム860秒。5128秒(約85分)
1200フレーム。1710秒(約28分)10225秒(約170分)
アニメイトディフベースモデルとして

 

フレームレートプレビュー推論時間の短縮(256×256)最終結果の推理時間(720×720)
24フレーム50秒180秒。
56フレーム85秒。370秒
80フレーム120秒。535秒
240フレーム350秒。1620秒(約27分)
600フレーム870秒。5138秒(~85分)
1200フレーム。1720秒(約28分)10235秒(約170分)
副ボリューム記述子基本モデルとして

 

フレームレートプレビュー推論時間の短縮(256×256)最終結果の推理時間(720×720)
24フレーム80秒210秒。
56フレーム115秒400秒。
80フレーム150秒。565秒
240フレーム380秒。1650秒(約27分)
600フレーム900秒。5168秒(~86分)
1200フレーム。1750秒(約29分)10265秒(~171分)

すべての測定は、NVIDIA A100(80 GB)GPUを使用して行われた。フレーム数が80を超える場合は、ランダム混合を使用した。ランダム混合ではchunk_sizeそしてoverlap_sizeはそれぞれ112と32に設定されている。

© 著作権表示
AiPPT

関連記事

コメントなし

なし
コメントはありません