Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility
記事のポイント
📰ニュース
LLMの長文コンテキスト推論を効率化する新しいKVキャッシュ可視性ポリシー「SPEED」が提案されました。
🔍注目ポイント
プロンプトのKV状態を下層レイヤーのみに保持し、デコードフェーズのトークンは全層で可視化することで、メモリと計算コストを削減します。
🔮これからどうなる
長文を扱うAIモデルの応答速度が向上し、より大規模なコンテキストでの利用が実用的になる可能性があります。
従来の長文コンテキスト推論は、プロンプトのKVキャッシュが全層で保持されるためコストが高く、SPEEDはこの問題を解決します。
Llama-3.1-8Bでの実験では、全層の75%でプロンプトを処理することで、品質を維持しつつTTFTを33%、TPOTを22%改善し、KVメモリを25%削減しました。
この手法は、長文プロンプトのKV状態が必ずしも全層で必要ではないことを示唆しています。
Llama-3.1-8Bでの実験では、全層の75%でプロンプトを処理することで、品質を維持しつつTTFTを33%、TPOTを22%改善し、KVメモリを25%削減しました。
この手法は、長文プロンプトのKV状態が必ずしも全層で必要ではないことを示唆しています。
これはLLMの長文処理のボトルネックを解消する画期的なアプローチですね。チャットボットの応答速度が体感できるほど速くなるかもしれませんよ。