SCOPE:複雑な画像生成のための構造化分解と条件付きスキルオーケストレーション
テキストから画像を生成するモデルにおいて、複雑な意図を忠実に再現する新フレームワーク「SCOPE」が提案…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
テキストから画像を生成するモデルにおいて、複雑な意図を忠実に再現する新フレームワーク「SCOPE」が提案…
Flow-OPDが、テキストから画像生成モデルのマルチタスクアライメントにおける課題を解決しました。
教師ありスパースオートエンコーダ(SAE)が、Stable Diffusion 3.5で画像の再構成と編集に成功しました。
拡散モデルにおける反実仮想生成の精度を向上させる新しいガイダンス手法が提案されました。
マルチモーダル合成画像の評価において、物理法則に基づいた新しいベンチマーク指標「PCMDE」が提案されま…
拡散モデルの画像生成において、強化学習を用いてタイムステップの最適化手法「ART-RL」が開発されました。
拡散トランスフォーマーの画像・動画生成における推論速度を向上させる新手法「AdaCorrection」が発表され…
ChatGPTの画像生成AI「GPT Image 2.0」が、実写人物の再現性で「Nano Banana Pro」に劣る点が指摘されまし…
AI生成画像の背景を透明化するオープンソースツール「Rembg」が公開されました。
P-Guideは、画像生成モデルのCFG推論を単一パスで高速化する新しいフレームワークです。
生成AIの振る舞いを制御する新しい理論的枠組み「MidSteer」が発表されました。
ViTok-v2が50億パラメータ規模の画像オートエンコーダとして、ネイティブ解像度での画像再構築性能を向上…