SpecKV: 圧縮レベルを考慮した適応的推測デコーディング
SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection
記事のポイント
📰ニュース
LLMの推論を高速化する推測デコーディングにおいて、最適な推測長を動的に決定する手法が開発されました。
🔍注目ポイント
ドラフトモデルの信頼度とエントロピーを基に、推測長γをステップごとに適応的に選択し、推論効率を最大化します。
🔮これからどうなる
大規模言語モデルの応答速度が向上し、ユーザーはよりスムーズで高速なAI体験を得られるようになります。
既存の推測デコーディングは固定された推測長γを使用しますが、最適なγはタスクやモデルの圧縮レベルによって変化します。
SpecKVは、ドラフトモデルから得られる信号(信頼度、エントロピー)を用いて、ステップごとに最適なγを予測する軽量なMLPコントローラーです。
これにより、固定γ=4のベースラインと比較して、推測ステップあたりのトークン数を56.0%向上させました。
SpecKVは、ドラフトモデルから得られる信号(信頼度、エントロピー)を用いて、ステップごとに最適なγを予測する軽量なMLPコントローラーです。
これにより、固定γ=4のベースラインと比較して、推測ステップあたりのトークン数を56.0%向上させました。
LLMの推論速度向上は、ユーザー体験に直結する重要な課題ですね。この技術は、チャットボットの応答速度を劇的に改善する可能性を秘めています。