★5 LLM EN OpenAI Blog by Synapse Flow 編集部

世界シミュレーターとしての動画生成モデル

Video generation models as world simulators

記事のポイント

📰ニュース

OpenAIがテキストから最大1分の高忠実度動画を生成する「Sora」を発表しました。

🔍注目ポイント

動画と画像を混合学習し、時空間パッチのTransformerで長尺・高解像度動画を生成します。

🔮これからどうなる

物理世界のシミュレーションが可能になり、映画制作やゲーム開発に革新をもたらす可能性があります。

Soraは、テキスト条件付き拡散モデルを動画と画像の両方で学習し、可変の期間、解像度、アスペクト比に対応します。
時空間パッチのTransformerアーキテクチャを活用することで、最大1分の高忠実度動画生成を実現しました。
これは物理世界の汎用シミュレーター構築への有望な一歩とされています。
💡
編集部の視点

OpenAIがまたすごいモデルを出してきたね!テキストから1分も動画が作れるなんて、映画とかゲームの未来が大きく変わりそうだね!

概要

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and imag…

元記事を読む →

関連記事