KL for a KL: 制御変量ベースラインを用いたオンポリシー蒸留
KL for a KL: On-Policy Distillation with Control Variate Baseline
記事のポイント
📰ニュース
大規模言語モデルのオンポリシー蒸留(OPD)の学習を安定させる新しい手法「vOPD」が提案されました。
🔍注目ポイント
vOPDは、OPDを強化学習のポリシー勾配として捉え、制御変量ベースラインを導入することで勾配の分散を大幅に削減します。
🔮これからどうなる
LLMの推論能力向上に不可欠なOPDの安定化により、より効率的で高性能なモデル開発が期待されます。
OPDは推論ドメインで有力な学習手法ですが、単一サンプルモンテカルロ推定器の勾配分散が高く、不安定でした。
vOPDは、強化学習の価値関数をベースラインとして利用し、追加の推論なしで逆KLダイバージェンスを閉形式で計算することで、この問題を解決します。
これにより、既存手法のオーバーヘッドやバイアスを回避しつつ、安定した学習を実現します。
vOPDは、強化学習の価値関数をベースラインとして利用し、追加の推論なしで逆KLダイバージェンスを閉形式で計算することで、この問題を解決します。
これにより、既存手法のオーバーヘッドやバイアスを回避しつつ、安定した学習を実現します。
LLMの推論能力向上に直結するOPDの安定化は、今後のモデル開発に大きな影響を与えそうです。より賢いAIが私たちの生活を豊かにするかもしれませんね。