Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
記事のポイント
📰ニュース
RLがLLMの長期的推論を教える際の課題を、新しい論理推論フレームワークで研究しました。
🔍注目ポイント
論理の表現力と推論の深さを制御できるScaleLogicを開発し、RL学習計算量が推論深度のべき乗則に従うことを発見しました。
🔮これからどうなる
LLMの推論能力向上に向けた効率的な学習方法が分かり、より複雑な問題解決に役立つでしょう。
ScaleLogicは、単純な含意論理から一階述語論理まで幅広い論理をサポートし、推論の深さと論理の表現力を独立して制御できます。
RL学習計算量Tが推論深度Dのべき乗則(T ∝ D^γ)に従い、べき乗指数γが論理の表現力とともに増加することを示しました。
より表現力の高い設定での学習が、下流タスクで大きな性能向上と計算効率の良い転移をもたらすことも判明しました。
RL学習計算量Tが推論深度Dのべき乗則(T ∝ D^γ)に従い、べき乗指数γが論理の表現力とともに増加することを示しました。
より表現力の高い設定での学習が、下流タスクで大きな性能向上と計算効率の良い転移をもたらすことも判明しました。
LLMの推論能力を伸ばすには、単に学習量を増やすだけでなく、どのような論理で学習させるかが重要なんですね。今後のAI開発の方向性に影響を与えそうです。