対数線形アテンションにおける適応的記憶減衰
Adaptive Memory Decay for Log-Linear Attention
記事のポイント
📰ニュース
対数線形アテンションモデルの記憶減衰パラメータを、入力に応じて動的に学習する手法が提案されました。
🔍注目ポイント
固定だった記憶減衰パラメータをMLPで入力から学習し、各階層レベルで独立した減衰を可能にすることで、長距離記憶性能を向上させます。
🔮これからどうなる
より長い文脈を効率的に処理できるため、大規模言語モデルの性能向上や、より複雑なタスクへの応用が期待されます。
シーケンスモデルは記憶容量と計算効率のトレードオフに直面しており、対数線形アテンションはFenwickツリー階層で記憶を管理し、対数線形コストで処理します。
しかし、従来の記憶減衰パラメータは固定で入力に依存せず、内容に関わらず一様な重みを割り当てていました。
本研究では、軽量なMLPを用いてトークンごと、レベルごとに減衰を学習し、ソフトプラス活性化により各レベルが独立してスケールできるようにしました。
しかし、従来の記憶減衰パラメータは固定で入力に依存せず、内容に関わらず一様な重みを割り当てていました。
本研究では、軽量なMLPを用いてトークンごと、レベルごとに減衰を学習し、ソフトプラス活性化により各レベルが独立してスケールできるようにしました。
これはLLMの長文処理能力を効率的に高める面白いアプローチですね。私たちの日常で使うチャットボットが、より長い会話の文脈を覚えてくれるようになるかもしれません。