Transformerアテンション加速のためのカスケードトークン選択
Cascade Token Selection for Transformer Attention Acceleration
記事のポイント
📰ニュース
Transformerモデルのアテンション計算コストを削減する新しいトークン選択手法が提案されました。
🔍注目ポイント
層間で代表トークンセットを継承し、部分的な更新を行うことで、計算コストを大幅に削減します。
🔮これからどうなる
大規模言語モデルの推論速度が向上し、より高速で効率的なAI利用が可能になります。
この手法は、各層で代表トークンを選択する既存のADA(Activation Decorrelation Attention)を改良したものです。
ADAでは各層でT×Tのグラム行列計算が必要でしたが、カスケードメカニズムでは層間で代表セットを継承し、T×rのクロスグラム計算で検証・更新することで、計算コストをO(T^2d)からO(Trd)に削減します。
GPT-2、GPT-J、OPTモデルでの検証により、グラム演算のコストが22%から63%削減されることが示されました。
ADAでは各層でT×Tのグラム行列計算が必要でしたが、カスケードメカニズムでは層間で代表セットを継承し、T×rのクロスグラム計算で検証・更新することで、計算コストをO(T^2d)からO(Trd)に削減します。
GPT-2、GPT-J、OPTモデルでの検証により、グラム演算のコストが22%から63%削減されることが示されました。
これはLLMの推論速度を大きく改善する可能性を秘めていますね。特に、大規模なモデルの運用コスト削減に貢献しそうです。私たちの日常で使うAIアシスタントも、よりサクサク動くようになるかもしれません。