★4 LLM EN OpenAI Blog by Synapse Flow 編集部

予測ベースの報酬による強化学習

Reinforcement learning with prediction-based rewards

記事のポイント

📰ニュース

OpenAIが予測ベースの報酬手法RNDを開発し、モンテズマの復讐で人間を超える性能を達成しました。

🔍注目ポイント

RNDは好奇心に基づきエージェントが環境を探索するよう促し、予測誤差を報酬として利用します。

🔮これからどうなる

複雑な探索が必要なタスクにおいて、AIがより効率的に学習し、人間を超える性能を発揮できるようになります。

RND(Random Network Distillation)は、ランダムに初期化されたターゲットネットワークと、エージェントが学習する予測ネットワークの出力の差を好奇心報酬として利用します。
これにより、エージェントは予測が難しい未知の状態を積極的に探索するようになります。
モンテズマの復讐は、複雑な探索と計画が求められることで知られるAtariゲームです。
💡
編集部の視点

モンテズマの復讐で人間超えはすごいね!予測誤差を報酬にするって発想が、探索が難しい環境での学習にめちゃくちゃ効きそうだね。

概要

We’ve developed Random Network Distillation (RND), a prediction-based method for encouraging reinforcement learning agents to explore their environments through curiosity, which for the first time exceeds average human performance on Montezuma’s Revenge.

元記事を読む →

関連記事