世界シミュレーターとしての動画生成モデル
Video generation models as world simulators
記事のポイント
📰ニュース
OpenAIがテキストから最大1分の高忠実度動画を生成する「Sora」を発表しました。
🔍注目ポイント
動画と画像を混合学習し、時空間パッチのTransformerで長尺・高解像度動画を生成します。
🔮これからどうなる
物理世界のシミュレーションが可能になり、映画制作やゲーム開発に革新をもたらす可能性があります。
Soraは、テキスト条件付き拡散モデルを動画と画像の両方で学習し、可変の期間、解像度、アスペクト比に対応します。
時空間パッチのTransformerアーキテクチャを活用することで、最大1分の高忠実度動画生成を実現しました。
これは物理世界の汎用シミュレーター構築への有望な一歩とされています。
時空間パッチのTransformerアーキテクチャを活用することで、最大1分の高忠実度動画生成を実現しました。
これは物理世界の汎用シミュレーター構築への有望な一歩とされています。
概要
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and imag…
OpenAIがまたすごいモデルを出してきたね!テキストから1分も動画が作れるなんて、映画とかゲームの未来が大きく変わりそうだね!