トープレッツMLPミキサー:低複雑度で情報豊富なシーケンスモデル
Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models
記事のポイント
📰ニュース
Transformerの注意機構をトープレッツ行列乗算に置き換えた新しいシーケンスモデル「TMM」が発表されました。
🔍注目ポイント
TMMはTransformerの二次計算量を大幅に削減し、訓練時にO(dn log n)、推論時にO(dn)の計算量とメモリ効率を実現します。
🔮これからどうなる
より効率的なモデル訓練が可能になり、低リソース環境での大規模言語モデル開発や利用が促進される可能性があります。
TMMは、他のサブ二次アーキテクチャに見られる複雑な入力変調や状態維持を欠きながらも、計算量あたりの損失とデバイスメモリにおいて高い訓練効率を示します。
入力情報の保持能力が高く、コピー能力や情報検索、in-context学習の精度も向上しています。
これはアーキテクチャのバイアスが少ないことに起因すると考えられています。
入力情報の保持能力が高く、コピー能力や情報検索、in-context学習の精度も向上しています。
これはアーキテクチャのバイアスが少ないことに起因すると考えられています。
Transformerの計算コスト問題に一石を投じる研究ですね。この技術が普及すれば、より多くの企業がAIモデルを開発できるようになるかもしれません。