★4 LLM EN arXiv cs.AI 2026年5月11日 13:00 by Synapse Flow 編集部

Goldilocks RL：推論のための疎な報酬から脱却するタスク難易度調整

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

記事のポイント

📰ニュース

強化学習において、言語モデルの推論能力向上を目的とした新しいデータサンプリング戦略「Goldilocks」が提案されました。

🔍注目ポイント

Goldilocksは、教師モデルが学生モデルの能力に合わせて「ちょうど良い」難易度の問題を動的に選択し、効率的な学習を可能にします。

🔮これからどうなる

言語モデルの推論能力を向上させ、より少ない計算資源で高度なAIを開発できるようになる可能性があります。

強化学習では、疎な報酬が学習効率を低下させる課題があります。
従来のカリキュラム学習は小規模データ向けで、大規模言語モデルには適用が困難でした。
Goldilocksは、学生モデルの過去のパフォーマンスに基づいて教師モデルが難易度を調整し、OpenMathReasoningデータセットでGRPOの性能を向上させました。

💡

編集部の視点

言語モデルの学習効率が格段に上がりそうですね。これで、より複雑な問題解決や推論が、私たちの日常で利用するAIでも可能になるかもしれません。

元記事を読む →