脱獄された最先端モデルは能力を維持する
Jailbroken Frontier Models Retain Their Capabilities
記事のポイント
📰ニュース
最先端の言語モデルは、複雑な脱獄手法を用いてもその性能がほとんど低下しないことが判明しました。
🔍注目ポイント
モデルの能力が高いほど脱獄による性能低下が少なく、特に推論能力が高いモデルでその傾向が顕著です。
🔮これからどうなる
AIの安全性評価において、脱獄による性能低下を前提とした対策は不十分となる可能性があります。
ClaudeモデルのHaiku 4.5からOpus 4.6までを対象に28種類の脱獄手法を評価した結果、Haiku 4.5は平均33.1%の性能低下を示したのに対し、Opus 4.6はわずか7.7%の低下でした。
特にBoundary Point Jailbreakingは、ほぼ完璧な回避と性能低下なしを達成しています。
この研究は、フロンティアモデルの安全対策が脱獄による能力低下に依存すべきではないと提言しています。
特にBoundary Point Jailbreakingは、ほぼ完璧な回避と性能低下なしを達成しています。
この研究は、フロンティアモデルの安全対策が脱獄による能力低下に依存すべきではないと提言しています。
最新のAIモデルは脱獄されても賢さを保つみたいですね。これは、AIの安全対策を考える上で、より高度なセキュリティ対策が求められることを示唆しています。