★4 LLM EN arXiv cs.AI 2026年5月8日 13:00 by Synapse Flow 編集部

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

記事のポイント

📰ニュース

Apple Silicon上でint4 KVキャッシュがfp16より高速に動作する技術が発表されました。

🔍注目ポイント

単一のMetalカーネルでint4量子化と圧縮を融合し、fp16を上回る推論速度と3倍のメモリ圧縮を実現しました。

🔮これからどうなる

AppleデバイスでのLLM推論が高速化され、より大規模なモデルを効率的に実行できるようになります。

本技術は、Gemma-3 1BやQwen2.5-1.5Bモデルでfp16より高速に動作し、メモリを3倍圧縮しながら品質を維持します。
特に、Qwenの4ビット量子化における性能低下を大幅に改善しました。
Sign-randomized FFTなどの手法を組み合わせた融合カーネルが鍵です。

💡

編集部の視点

Apple SiliconでLLMがさらに快適に動くようになりそうですね。iPhoneやMacでのAI体験が大きく向上するかもしれません。

元記事を読む →

初期のAnthropic支援企業であるメンロー・ベンチャーズが、過去最大となる30億ドルの資金調達に成功しまし…

Cursorが初の自社開発AIモデルと、新しいGitプラットフォーム、モバイルアプリを発表しました。

OpenAIがサイバーセキュリティ向け新モデル「GPT-5.5-Cyber」を発表し、既存モデルを上回る性能を示しまし…

OpenRouterで中国製AIモデル「GLM-5.2」のAPI利用者が急増しました。