★4 LLM EN Hugging Face Blog 2023年12月20日 09:00 by Synapse Flow 編集部

Whisper推論を2倍高速化する投機的デコーディング

Speculative Decoding for 2x Faster Whisper Inference

記事のポイント

📰ニュース

Hugging FaceがWhisperモデルの推論速度を投機的デコーディングで2倍に向上させました。

🔍注目ポイント

小型モデルで次トークンを予測し、大型モデルで検証することで、計算量を大幅に削減します。

🔮これからどうなる

Whisperの音声認識がより高速になり、リアルタイムアプリケーションでの利用が拡大するでしょう。

投機的デコーディングは、高速な小型モデル（ドラフトモデル）で候補シーケンスを生成し、高精度な大型モデル（ターゲットモデル）で一括検証する手法です。
これにより、大型モデルの計算を効率化し、推論時間を短縮します。
特にWhisperのようなTransformerベースのモデルで効果を発揮します。

💡

編集部の視点

Whisperがさらに速くなるのは嬉しいね！リアルタイム翻訳とか、もっと使いやすくなりそうだよ。

元記事を読む →

Databricksが中国のオープンソースモデルGLM 5.2をデフォルトのコーディングエンジンとして採用しました。

AI企業TryAIがGrok 4.5、GPT-5.5、Claude Opus 4.8、Fable 5でアプリ開発の性能を比較しました。

世界最大級のヘッジファンドであるマン・グループが、AIトークン支出を前年比86倍に増やしました。

投資会社マン・グループがAI関連のトークン支出を大幅に増やしていることが明らかになりました。