OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models
記事のポイント
📰ニュース
OPSDが思考を伴う数学的推論モデルの応答を短縮し、精度を維持する圧縮メカニズムとして機能することが示されました。
🔍注目ポイント
OPSDは、RLVRで学習したモデルの正解出力のみを対象とすることで、精度を損なわずに冗長な思考プロセスを圧縮できます。
🔮これからどうなる
思考を伴う推論AIの応答がより簡潔になり、ユーザーは効率的に情報を得られるようになるでしょう。
On-Policy Self-Distillation (OPSD) は、特権的な文脈に基づく自己教師からのトークンレベルの信用割り当てにより、高精度で短い応答を約束する手法です。
しかし、思考を伴う数学的推論では、その精度向上が見られませんでした。
本研究では、OPSDを正解と不正解のロールアウトに分けて適用し、OPSDが主に圧縮メカニズムとして機能することを発見しました。
これにより、SFT、RLVR、OPSDを組み合わせた新しい推論モデルのトレーニングパイプラインが提案されています。
しかし、思考を伴う数学的推論では、その精度向上が見られませんでした。
本研究では、OPSDを正解と不正解のロールアウトに分けて適用し、OPSDが主に圧縮メカニズムとして機能することを発見しました。
これにより、SFT、RLVR、OPSDを組み合わせた新しい推論モデルのトレーニングパイプラインが提案されています。
思考を伴うAIの応答が長くなりがちだった問題に、良い解決策が見つかったようです。これで、より効率的にAIと対話できるようになるかもしれませんね。