N
人間のフィードバックを収集する
OpenAIが、人間からのフィードバックでAIを訓練するオープンソースツール「RL-Teacher」を公開しました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
OpenAIが、人間からのフィードバックでAIを訓練するオープンソースツール「RL-Teacher」を公開しました。
強化学習アルゴリズムのパラメータにノイズを加えることで性能が向上することが発見されました。
OpenAIが実装と調整が容易な強化学習アルゴリズムPPOを公開しました。
OpenAIが様々な視点やスケールから見てもAIを騙せる画像を開発しました。
強化学習において、失敗した経験からも学習を可能にするHERが開発されました。
OpenAIが、教師モデルが生成したカリキュラムで生徒モデルを効率的に訓練する手法を発表しました。
OpenAIがロボットシミュレーション用の高性能Pythonライブラリをオープンソース化しました。
AIが人間の望む行動を、2つの選択肢からより良い方を選ぶだけで学習するアルゴリズムが開発されました。
OpenAIがAGIへの道としてマルチエージェント環境での学習の重要性を強調しました。
強化学習において、Qアンサンブルを用いてUCB(Upper Confidence Bound)探索を効率化する手法が提案され…
OpenAIが強化学習アルゴリズムの再現実装「OpenAI Baselines」をオープンソース化しました。
シミュレーションで学習したロボットが、一度見ただけで新しいタスクを習得しました。