ZAYA1-8B Technical Report
記事のポイント
📰ニュース
Zyphraが7億パラメータのMoEモデル「ZAYA1-8B」を発表しました。
🔍注目ポイント
少ないアクティブパラメータで、大規模モデルに匹敵する推論性能を達成しています。
🔮これからどうなる
より効率的で高性能なAIモデルの開発が加速し、利用コスト削減に繋がるでしょう。
ZAYA1-8Bは、ZyphraのMoE++アーキテクチャに基づき、AMDプラットフォームで訓練されました。
数学やコーディングのベンチマークでDeepSeek-R1-0528を凌駕し、大規模モデルとも競合します。
推論に特化した訓練と、テスト時の計算方法「Markovian RSA」により高い性能を実現しています。
数学やコーディングのベンチマークでDeepSeek-R1-0528を凌駕し、大規模モデルとも競合します。
推論に特化した訓練と、テスト時の計算方法「Markovian RSA」により高い性能を実現しています。
概要
arXiv:2605.05365v1 Announce Type: new Abstract: We present ZAYA1-8B, a reasoning-focused mixture-of-experts (MoE) model with 700M active and 8B total parameters, built on Zyphra's MoE++ architecture. ZAYA1-8B's core pretraining, midtraining, and supervised fine-tuning (SFT) were performed on a full…
7億という少ないアクティブパラメータで、これだけ推論能力が高いのは驚きですね。Markovian RSAのような効率的な推論手法が、今後のAIモデルの性能向上に大きく貢献しそうです。私たちの日常で使うAIアシスタントの賢さも、さらに向上するかもしれません。