★4 画像生成 EN arXiv cs.AI 2026年5月8日 13:00 by Synapse Flow 編集部

ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

記事のポイント

📰ニュース

ViTok-v2が50億パラメータ規模の画像オートエンコーダとして、ネイティブ解像度での画像再構築性能を向上させました。

🔍注目ポイント

NaFlexによるネイティブ解像度対応とDINOv3知覚損失の導入で、高解像度画像での安定した学習と再構築を実現しました。

🔮これからどうなる

高解像度での画像生成や編集の品質が向上し、よりリアルで詳細なビジュアルコンテンツの作成が可能になるでしょう。

従来のViTオートエンコーダは学習解像度外で性能が低下し、敵対的損失に依存するため安定したスケーリングが困難でした。
ViTok-v2はこれらの課題を克服し、約20億枚の画像で学習され、過去最大の50億パラメータに達しました。
これにより、256p以上の解像度で最先端の再構築性能を達成しています。

💡

編集部の視点

ViTok-v2は、画像生成モデルの基盤となるオートエンコーダ技術を大きく進化させましたね。高解像度での画像生成がより身近なものになりそうです。

元記事を読む →

ストック画像大手ゲッティイメージズがOpenAIと提携し、AI企業としての新たな道を歩み始めました。

中国の研究チームが、軽量ながら高性能な画像補完AIフレームワーク「Moebius」を発表しました。

ローカル動画生成AI「LTX-2.3」の公式LoRA開発ツール「LTX Trainer」が大幅にアップデートされました。

LINEヤフーがAIエージェント「Agent i」に画像生成機能とパーソナライズ機能を追加しました。