★4 LLM EN arXiv cs.AI by Synapse Flow 編集部

ルーブリックに基づく強化学習:汎用的な推論のための構造化された評価報酬

Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning

記事のポイント

📰ニュース

LLMの推論能力を向上させるため、ルーブリック(評価基準)を用いた強化学習フレームワークが提案されました。

🔍注目ポイント

LLMが生成した回答を複数の基準で評価し、部分点を与えることで、より詳細な最適化信号を生成します。

🔮これからどうなる

より汎用的な推論能力を持つLLMの開発が進み、科学技術文書の要約や複雑な問題解決に役立つでしょう。

このフレームワークでは、凍結されたLLM評価器が補助情報に基づいて多基準の報酬を生成し、ポリシーを最適化します。
約10万件の科学技術文書からルーブリックを導出し、Llama-3.1-8B-InstructをGRPOで訓練した結果、未公開のルーブリック評価で71.7%の正規化報酬を達成しました。
また、GSM8KやMATHなどの推論ベンチマークでもベースモデルを上回る性能を示しました。
💡
編集部の視点

LLMの評価を細分化して部分点を与えることで、より効率的に賢くなるアプローチですね。科学技術文書の理解度が向上すれば、私たちの研究や仕事の効率も上がりそうです。

元記事を読む →

関連記事