When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon
記事のポイント
📰ニュース
Apple Silicon上でint4 KVキャッシュがfp16より高速に動作する技術が発表されました。
🔍注目ポイント
単一のMetalカーネルでint4量子化と圧縮を融合し、fp16を上回る推論速度と3倍のメモリ圧縮を実現しました。
🔮これからどうなる
AppleデバイスでのLLM推論が高速化され、より大規模なモデルを効率的に実行できるようになります。
本技術は、Gemma-3 1BやQwen2.5-1.5Bモデルでfp16より高速に動作し、メモリを3倍圧縮しながら品質を維持します。
特に、Qwenの4ビット量子化における性能低下を大幅に改善しました。
Sign-randomized FFTなどの手法を組み合わせた融合カーネルが鍵です。
特に、Qwenの4ビット量子化における性能低下を大幅に改善しました。
Sign-randomized FFTなどの手法を組み合わせた融合カーネルが鍵です。
Apple SiliconでLLMがさらに快適に動くようになりそうですね。iPhoneやMacでのAI体験が大きく向上するかもしれません。