★4 画像生成 EN arXiv cs.AI by Synapse Flow 編集部

Stable Diffusionの記憶はCLIP埋め込みによって予期せず駆動される

Memorization In Stable Diffusion Is Unexpectedly Driven by CLIP Embeddings

記事のポイント

📰ニュース

Stable Diffusionが特定のCLIP埋め込みに過度に依存し、それが記憶(memorization)の原因となっていることが判明しました。

🔍注目ポイント

CLIP埋め込みの構造的な重複、特にv_eotとv_padの重複が、モデルの記憶を強く引き起こしていることを特定しました。

🔮これからどうなる

画像生成モデルの安全性と信頼性が向上し、意図しない個人情報や著作物の生成リスクが低減されるでしょう。

テキストから画像への拡散モデルにおけるテキスト埋め込みが、どのように記憶に寄与するかを調査した研究です。
特に、CLIP埋め込みのv_eot(文末トークン)とv_pad(パディングトークン)の構造的な重複が、モデルに過度な依存を引き起こし、記憶を駆動していることを発見しました。
この知見に基づき、推論時にv_eotをマスクしたり、v_padを部分的にマスクしたりする2つの簡単な対策が提案されています。
💡
編集部の視点

画像生成AIが特定の画像を記憶してしまう問題の根本原因が解明され、対策も提案されています。これにより、より安全で信頼性の高い画像生成AIが実現し、クリエイターの皆さんの作品制作にも良い影響がありそうです。

元記事を読む →

関連記事