安全性ファインチューニングのための自己採掘型難易度
Self-Mined Hardness for Safety Fine-Tuning
記事のポイント
📰ニュース
言語モデルの安全性ファインチューニングにおいて、モデル自身の有害な応答を基に難易度を評価し、最も難しいプロンプトで学習する新手法が提案されました。
🔍注目ポイント
モデル自身のロールアウト結果からプロンプトの難易度を自動で算出し、その難易度が高いプロンプトでファインチューニングすることで、外部データなしに安全性を向上させます。
🔮これからどうなる
AIモデルの安全性向上プロセスが効率化され、より安全なAIアシスタントが提供されることで、ユーザーは安心して利用できるようになります。
この手法はLlama-3-8B-InstructとLlama-3.2-3B-Instructでテストされ、WildJailbreak攻撃成功率を大幅に削減しました。
ただし、良性プロンプトへの拒否率が高まる課題があり、敵対的に見える良性プロンプトを混ぜることで拒否率を低減できることも示されています。
最も難しいプロンプト群で学習することで、攻撃成功率をさらに削減できることが確認されました。
ただし、良性プロンプトへの拒否率が高まる課題があり、敵対的に見える良性プロンプトを混ぜることで拒否率を低減できることも示されています。
最も難しいプロンプト群で学習することで、攻撃成功率をさらに削減できることが確認されました。
モデル自身が「これは難しい」と判断したプロンプトで学習させるのは面白いアプローチですね。AIの安全性が高まれば、私たちの生活での利用範囲も広がりそうです。