ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters
記事のポイント
📰ニュース
ViTok-v2が50億パラメータ規模の画像オートエンコーダとして、ネイティブ解像度での画像再構築性能を向上させました。
🔍注目ポイント
NaFlexによるネイティブ解像度対応とDINOv3知覚損失の導入で、高解像度画像での安定した学習と再構築を実現しました。
🔮これからどうなる
高解像度での画像生成や編集の品質が向上し、よりリアルで詳細なビジュアルコンテンツの作成が可能になるでしょう。
従来のViTオートエンコーダは学習解像度外で性能が低下し、敵対的損失に依存するため安定したスケーリングが困難でした。
ViTok-v2はこれらの課題を克服し、約20億枚の画像で学習され、過去最大の50億パラメータに達しました。
これにより、256p以上の解像度で最先端の再構築性能を達成しています。
ViTok-v2はこれらの課題を克服し、約20億枚の画像で学習され、過去最大の50億パラメータに達しました。
これにより、256p以上の解像度で最先端の再構築性能を達成しています。
ViTok-v2は、画像生成モデルの基盤となるオートエンコーダ技術を大きく進化させましたね。高解像度での画像生成がより身近なものになりそうです。