MISA:長文LLM推論のためのインデクサースパースアテンションの混合
MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference
記事のポイント
📰ニュース
長文LLMの推論コストを削減する新しいスパースアテンション手法「MISA」が開発されました。
🔍注目ポイント
MISAは、インデクサーヘッドをMoEとして扱い、軽量ルーターで少数のアクティブヘッドのみを使用し、推論速度を大幅に向上させます。
🔮これからどうなる
LLMの長文処理が高速化され、より大規模なテキストを扱うアプリケーションの性能向上に貢献するでしょう。
MISAは、DeepSeek Sparse Attention (DSA) のインデクサーを置き換える技術です。
DSAのインデクサーは多くのクエリヘッドを使用するため長文処理のボトルネックでしたが、MISAはこれをMoEとして扱い、必要なヘッドのみを動的に選択します。
これにより、DeepSeek-V3.2やGLM-5において、DSAと同等の性能を維持しつつ、インデクサーヘッド数を大幅に削減し、NVIDIA H200 GPUで約3.82倍の高速化を達成しました。
DSAのインデクサーは多くのクエリヘッドを使用するため長文処理のボトルネックでしたが、MISAはこれをMoEとして扱い、必要なヘッドのみを動的に選択します。
これにより、DeepSeek-V3.2やGLM-5において、DSAと同等の性能を維持しつつ、インデクサーヘッド数を大幅に削減し、NVIDIA H200 GPUで約3.82倍の高速化を達成しました。
長文LLMの推論コストは大きな課題だったので、このMISAの高速化は非常に期待できますね。私たちの日常で使うチャットボットの応答速度も改善されるかもしれません。