マルチモーダル合成画像のための物理ベースのベンチマーク指標
マルチモーダル合成画像の評価において、物理法則に基づいた新しいベンチマーク指標「PCMDE」が提案されま…
マルチモーダル合成画像の評価において、物理法則に基づいた新しいベンチマーク指標「PCMDE」が提案されま…
拡散モデルの画像生成において、強化学習を用いてタイムステップの最適化手法「ART-RL」が開発されました。
拡散トランスフォーマーの画像・動画生成における推論速度を向上させる新手法「AdaCorrection」が発表され…
ChatGPTの画像生成AI「GPT Image 2.0」が、実写人物の再現性で「Nano Banana Pro」に劣る点が指摘されまし…
AI生成画像の背景を透明化するオープンソースツール「Rembg」が公開されました。
P-Guideは、画像生成モデルのCFG推論を単一パスで高速化する新しいフレームワークです。
生成AIの振る舞いを制御する新しい理論的枠組み「MidSteer」が発表されました。
ViTok-v2が50億パラメータ規模の画像オートエンコーダとして、ネイティブ解像度での画像再構築性能を向上…
拡散モデルを用いた画像変換のサンプリング速度を大幅に向上させる新手法「DBMSolver」が発表されました。
画像劣化の種類を問わず、単一モデルで高精度な画像復元を実現する新手法「CEA」が発表されました。
自己回帰型画像生成モデルの生成品質を向上させる「Prologue」という新しい手法が提案されました。
画像トークナイザーと自己回帰型事前モデルの学習を統合する新手法「wAR-Tok」が提案されました。