LLMにおける逆ツリー凍結としての創発的遅延思考
Emergent Slow Thinking in LLMs as Inverse Tree Freezing
記事のポイント
📰ニュース
LLMが多段階推論を獲得するメカニズムを統計物理学の観点から解明し、新しい学習手法を提案しました。
🔍注目ポイント
LLMの推論を「コンセプトネットワーク」上のランダムウォークとして捉え、RLVRによる学習を逆ツリー凍結として説明しています。
🔮これからどうなる
LLMの推論能力向上と、より効率的で安定した学習方法の開発に貢献する可能性があります。
本研究は、大規模言語モデル(LLM)が検証可能な報酬による強化学習(RLVR)を通じて、多段階の「遅延思考」を獲得する現象を統計物理学の視点から分析しています。
LLMの限られた容量が、指数関数的に大きなプレフィックス空間を予測状態のマルコフネットワーク(コンセプトネットワーク)に圧縮し、その上で遅延思考がランダムウォークとして展開されると説明。
RLVRのダイナミクスは、互換性のあるパスの結合と互換性のないパス間の競合によって駆動され、最終的に多入力単出力の逆ツリー構造に凍結すると述べています。
このモデルは、15億パラメータのLLMの学習ダイナミクスを再現し、推論チェーンの長さ、SFTによる壊滅的忘却、ポリシー崩壊に関する3つの予測を導き出しました。
さらに、この構造的なタイミングに基づいて、最大フラストレーション時に短いSFT介入を行う「Annealed-RLVR」を提案し、標準RLVRを上回る性能を示しました。
LLMの限られた容量が、指数関数的に大きなプレフィックス空間を予測状態のマルコフネットワーク(コンセプトネットワーク)に圧縮し、その上で遅延思考がランダムウォークとして展開されると説明。
RLVRのダイナミクスは、互換性のあるパスの結合と互換性のないパス間の競合によって駆動され、最終的に多入力単出力の逆ツリー構造に凍結すると述べています。
このモデルは、15億パラメータのLLMの学習ダイナミクスを再現し、推論チェーンの長さ、SFTによる壊滅的忘却、ポリシー崩壊に関する3つの予測を導き出しました。
さらに、この構造的なタイミングに基づいて、最大フラストレーション時に短いSFT介入を行う「Annealed-RLVR」を提案し、標準RLVRを上回る性能を示しました。
LLMが複雑な推論をどう獲得するのか、そのメカニズムを物理学の視点から解明しているのは面白いですね。Annealed-RLVRは、今後のLLMの学習効率を大きく改善し、私たちの生活に役立つより賢いAIの実現に貢献しそうです。