★3 LLM EN arXiv cs.AI by Synapse Flow 編集部

対数線形アテンションにおける適応的記憶減衰

Adaptive Memory Decay for Log-Linear Attention

記事のポイント

📰ニュース

対数線形アテンションモデルの記憶減衰パラメータを、入力に応じて動的に学習する手法が提案されました。

🔍注目ポイント

固定だった記憶減衰パラメータをMLPで入力から学習し、各階層レベルで独立した減衰を可能にすることで、長距離記憶性能を向上させます。

🔮これからどうなる

より長い文脈を効率的に処理できるため、大規模言語モデルの性能向上や、より複雑なタスクへの応用が期待されます。

シーケンスモデルは記憶容量と計算効率のトレードオフに直面しており、対数線形アテンションはFenwickツリー階層で記憶を管理し、対数線形コストで処理します。
しかし、従来の記憶減衰パラメータは固定で入力に依存せず、内容に関わらず一様な重みを割り当てていました。
本研究では、軽量なMLPを用いてトークンごと、レベルごとに減衰を学習し、ソフトプラス活性化により各レベルが独立してスケールできるようにしました。
💡
編集部の視点

これはLLMの長文処理能力を効率的に高める面白いアプローチですね。私たちの日常で使うチャットボットが、より長い会話の文脈を覚えてくれるようになるかもしれません。

元記事を読む →

関連記事