★4 LLM arXiv cs.AI by Synapse Flow 編集部

ZAYA1-8B Technical Report

記事のポイント

📰ニュース

Zyphraが7億パラメータのMoEモデル「ZAYA1-8B」を発表しました。

🔍注目ポイント

少ないアクティブパラメータで、大規模モデルに匹敵する推論性能を達成しています。

🔮これからどうなる

より効率的で高性能なAIモデルの開発が加速し、利用コスト削減に繋がるでしょう。

ZAYA1-8Bは、ZyphraのMoE++アーキテクチャに基づき、AMDプラットフォームで訓練されました。
数学やコーディングのベンチマークでDeepSeek-R1-0528を凌駕し、大規模モデルとも競合します。
推論に特化した訓練と、テスト時の計算方法「Markovian RSA」により高い性能を実現しています。
💡
編集部の視点

7億という少ないアクティブパラメータで、これだけ推論能力が高いのは驚きですね。Markovian RSAのような効率的な推論手法が、今後のAIモデルの性能向上に大きく貢献しそうです。私たちの日常で使うAIアシスタントの賢さも、さらに向上するかもしれません。

概要

arXiv:2605.05365v1 Announce Type: new Abstract: We present ZAYA1-8B, a reasoning-focused mixture-of-experts (MoE) model with 700M active and 8B total parameters, built on Zyphra's MoE++ architecture. ZAYA1-8B's core pretraining, midtraining, and supervised fine-tuning (SFT) were performed on a full…

元記事を読む →

関連記事