ルーブリックに基づく強化学習:汎用的な推論のための構造化された評価報酬
Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning
記事のポイント
📰ニュース
LLMの推論能力を向上させるため、ルーブリック(評価基準)を用いた強化学習フレームワークが提案されました。
🔍注目ポイント
LLMが生成した回答を複数の基準で評価し、部分点を与えることで、より詳細な最適化信号を生成します。
🔮これからどうなる
より汎用的な推論能力を持つLLMの開発が進み、科学技術文書の要約や複雑な問題解決に役立つでしょう。
このフレームワークでは、凍結されたLLM評価器が補助情報に基づいて多基準の報酬を生成し、ポリシーを最適化します。
約10万件の科学技術文書からルーブリックを導出し、Llama-3.1-8B-InstructをGRPOで訓練した結果、未公開のルーブリック評価で71.7%の正規化報酬を達成しました。
また、GSM8KやMATHなどの推論ベンチマークでもベースモデルを上回る性能を示しました。
約10万件の科学技術文書からルーブリックを導出し、Llama-3.1-8B-InstructをGRPOで訓練した結果、未公開のルーブリック評価で71.7%の正規化報酬を達成しました。
また、GSM8KやMATHなどの推論ベンチマークでもベースモデルを上回る性能を示しました。
LLMの評価を細分化して部分点を与えることで、より効率的に賢くなるアプローチですね。科学技術文書の理解度が向上すれば、私たちの研究や仕事の効率も上がりそうです。