ガウス平滑化を用いたソフト決定論的方策勾配
Soft Deterministic Policy Gradient with Gaussian Smoothing
記事のポイント
📰ニュース
決定論的方策勾配(DPG)の学習安定性を向上させる新しい強化学習アルゴリズムが提案されました。
🔍注目ポイント
ガウス平滑化を用いたベルマン方程式で、行動に対する批評家の勾配依存を排除し、非滑らかなQ関数でも安定した学習を可能にします。
🔮これからどうなる
ロボット制御や自動運転など、連続制御が必要なAIシステムの学習がより安定し、実用性が向上する可能性があります。
DPGは連続制御で広く使われますが、報酬が疎らな場合、批評家の行動勾配の微分可能性が問題でした。
提案されたSoft-DPGは、平滑化されたベルマン方程式に基づき、この問題を解決します。
実験では、標準的なDDPGよりも離散報酬環境で明確な性能向上を示しました。
提案されたSoft-DPGは、平滑化されたベルマン方程式に基づき、この問題を解決します。
実験では、標準的なDDPGよりも離散報酬環境で明確な性能向上を示しました。
強化学習の安定性向上は、ロボットの動きをより滑らかにするなど、私たちの生活に身近なAI製品の性能向上につながりそうです。