★4 LLM EN arXiv cs.AI by Synapse Flow 編集部

KL for a KL: 制御変量ベースラインを用いたオンポリシー蒸留

KL for a KL: On-Policy Distillation with Control Variate Baseline

記事のポイント

📰ニュース

大規模言語モデルのオンポリシー蒸留(OPD)の学習を安定させる新しい手法「vOPD」が提案されました。

🔍注目ポイント

vOPDは、OPDを強化学習のポリシー勾配として捉え、制御変量ベースラインを導入することで勾配の分散を大幅に削減します。

🔮これからどうなる

LLMの推論能力向上に不可欠なOPDの安定化により、より効率的で高性能なモデル開発が期待されます。

OPDは推論ドメインで有力な学習手法ですが、単一サンプルモンテカルロ推定器の勾配分散が高く、不安定でした。
vOPDは、強化学習の価値関数をベースラインとして利用し、追加の推論なしで逆KLダイバージェンスを閉形式で計算することで、この問題を解決します。
これにより、既存手法のオーバーヘッドやバイアスを回避しつつ、安定した学習を実現します。
💡
編集部の視点

LLMの推論能力向上に直結するOPDの安定化は、今後のモデル開発に大きな影響を与えそうです。より賢いAIが私たちの生活を豊かにするかもしれませんね。

元記事を読む →

関連記事