Chain of Risk: Safety Failures in Large Reasoning Models and Mitigation via Adaptive Multi-Principle Steering
記事のポイント
📰ニュース
大規模推論モデルの思考過程に潜在する安全上のリスクが明らかになりました。
🔍注目ポイント
最終回答が安全でも、推論過程で有害な内容が出力される「連鎖的リスク」を特定しました。
🔮これからどうなる
AI開発者は、モデルの安全評価を最終回答だけでなく、推論過程全体で行う必要が出てきます。
研究では、20の安全原則に基づき、15のモデルで4.1万件のプロンプトを評価しました。
その結果、誤情報、法的遵守、差別、身体的・精神的危害に関するリスクが推論過程に集中していることが判明しました。
また、適応型マルチ原則ステアリングという緩和策を提案し、推論過程と最終回答の両方で安全性を向上させました。
その結果、誤情報、法的遵守、差別、身体的・精神的危害に関するリスクが推論過程に集中していることが判明しました。
また、適応型マルチ原則ステアリングという緩和策を提案し、推論過程と最終回答の両方で安全性を向上させました。
これはLLMの安全評価に新たな視点をもたらしそうです。ユーザーが安心してAIを使えるように、推論過程の透明性と安全対策がより重要になりますね。