Stable Diffusionの記憶はCLIP埋め込みによって予期せず駆動される
Memorization In Stable Diffusion Is Unexpectedly Driven by CLIP Embeddings
記事のポイント
📰ニュース
Stable Diffusionが特定のCLIP埋め込みに過度に依存し、それが記憶(memorization)の原因となっていることが判明しました。
🔍注目ポイント
CLIP埋め込みの構造的な重複、特にv_eotとv_padの重複が、モデルの記憶を強く引き起こしていることを特定しました。
🔮これからどうなる
画像生成モデルの安全性と信頼性が向上し、意図しない個人情報や著作物の生成リスクが低減されるでしょう。
テキストから画像への拡散モデルにおけるテキスト埋め込みが、どのように記憶に寄与するかを調査した研究です。
特に、CLIP埋め込みのv_eot(文末トークン)とv_pad(パディングトークン)の構造的な重複が、モデルに過度な依存を引き起こし、記憶を駆動していることを発見しました。
この知見に基づき、推論時にv_eotをマスクしたり、v_padを部分的にマスクしたりする2つの簡単な対策が提案されています。
特に、CLIP埋め込みのv_eot(文末トークン)とv_pad(パディングトークン)の構造的な重複が、モデルに過度な依存を引き起こし、記憶を駆動していることを発見しました。
この知見に基づき、推論時にv_eotをマスクしたり、v_padを部分的にマスクしたりする2つの簡単な対策が提案されています。
画像生成AIが特定の画像を記憶してしまう問題の根本原因が解明され、対策も提案されています。これにより、より安全で信頼性の高い画像生成AIが実現し、クリエイターの皆さんの作品制作にも良い影響がありそうです。