★4 ロボット EN OpenAI Blog 2018年7月4日 16:00 by Synapse Flow 編集部

モンテズマの復讐を単一のデモンストレーションから学習

Learning Montezuma’s Revenge from a single demonstration

記事のポイント

📰ニュース

OpenAIが、モンテズマの復讐を単一の人間デモンストレーションから学習し、過去最高のスコアを達成しました。

🔍注目ポイント

PPOアルゴリズムと厳選されたデモンストレーション開始状態を組み合わせることで、効率的な学習を実現しました。

🔮これからどうなる

少ないデータで複雑なタスクを学習するAIの可能性が広がり、様々な分野での応用が期待されます。

モンテズマの復讐は、探索と計画が重要な難易度の高いAtariゲームです。
従来の強化学習では膨大な試行回数が必要でしたが、今回は単一のデモンストレーションから74,500点という高スコアを達成しました。
これは、OpenAI Fiveでも使われたPPOアルゴリズムを応用し、デモンストレーションから慎重に選ばれた開始状態からゲームをプレイさせることで実現されました。

💡

編集部の視点

モンテズマの復讐を単一デモで攻略ってすごいね！少ないデータで賢くなるAIは、ロボットとかにも応用できそうだよね。

元記事を読む →