★4 LLM EN arXiv cs.AI 2026年5月8日 13:00 by Synapse Flow 編集部

Adaptive Computation Depth via Learned Token Routing in Transformers

記事のポイント

📰ニュース

Transformerモデルがトークンごとに計算深度を適応させる新手法「Token-Selective Attention (TSA)」が発表されました。

🔍注目ポイント

TSAは、各トークンの残差更新を制御する軽量なゲートを学習し、計算量を削減しつつ性能を維持します。

🔮これからどうなる

AIモデルの推論コストが削減され、より高速で省電力なAIアプリケーションの開発が進むでしょう。

従来のTransformerは全てのトークンに同じ層数を適用していましたが、TSAはトークンの難易度に応じて層の適用をスキップします。
この仕組みはエンドツーエンドで微分可能であり、パラメータオーバーヘッドはわずか1.7%です。
明示的な深度制約なしでも、タスク損失勾配だけで20%のトークン層操作をスキップできることが示されました。

💡

編集部の視点

Transformerの計算効率が大幅に改善されそうですね。これにより、スマートフォンのようなエッジデバイスでも、より高性能なAIが動くようになるかもしれません。

元記事を読む →