読みにくくても脱獄可能:視覚的劣化がMLLMの安全性アライメントを迂回する方法
Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
記事のポイント
📰ニュース
画像解像度の低下が、マルチモーダルLLM(MLLM)の安全対策を容易に迂回させる脆弱性が発見されました。
🔍注目ポイント
テキストが判読可能でも、画像解像度を下げるとMLLMの安全防御が著しく低下する「認知的過負荷」が原因です。
🔮これからどうなる
視覚ベースの圧縮技術を用いるMLLMの安全性に重大なリスクをもたらし、悪用される可能性があります。
MLLMがテキストを画像として処理する際、画像解像度を意図的に下げることで、モデルの安全対策が機能しなくなります。
これは、劣化した入力を解読する労力が安全監査から注意資源を奪う「認知的過負荷」によるものと推測されています。
ノイズや幾何学的歪みなど、様々な視覚的摂動で同様の現象が確認されました。
これは、劣化した入力を解読する労力が安全監査から注意資源を奪う「認知的過負荷」によるものと推測されています。
ノイズや幾何学的歪みなど、様々な視覚的摂動で同様の現象が確認されました。
MLLMが画像を介して情報を処理する際の新たな脆弱性が明らかになりましたね。この発見は、私たちの生活でAIがより安全に利用されるために非常に重要です。