★4 LLM EN arXiv cs.AI 2026年5月11日 13:00 by Synapse Flow 編集部

VESPO：安定したオフポリシーLLM学習のための変分シーケンスレベルソフト方策最適化

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

記事のポイント

📰ニュース

大規模言語モデル（LLM）のオフポリシー強化学習において、高い分散を抑え安定した学習を可能にする新手法「VESPO」が提案されました。

🔍注目ポイント

VESPOは、分散削減を変分定式化に組み込み、シーケンスレベルの重要度重みに直接作用する閉形式のカーネルを導出し、明示的な分散境界を提供します。

🔮これからどうなる

LLMの強化学習がより安定し、非同期学習や推論エンジンとの不一致による性能低下が抑制され、開発効率が向上するでしょう。

オフポリシー学習は、非同期学習によるロールアウトの陳腐化や、学習・推論エンジンの不一致により、LLMの強化学習で避けられません。
従来の重要度サンプリングは分散が高く、トークンレベルのクリッピングやシーケンスレベルの正規化もヒューリスティックな課題がありました。
VESPOは、数学的推論とコード生成の実験で、最大64倍の陳腐化条件下でも安定した学習を維持し、既存手法を上回る性能を示しました。

💡

編集部の視点

LLMの強化学習はオフポリシー更新が避けられないので、このVESPOは学習の安定性を大きく改善しそうです。特に、大規模なモデル開発において、学習の効率と信頼性が向上し、新しいアプリケーションの創出に貢献するかもしれませんね。

元記事を読む →