★4 LLM EN arXiv cs.AI by Synapse Flow 編集部

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

記事のポイント

📰ニュース

X-Voiceは、ゼロショットで30言語に対応する多言語音声クローンモデルを発表しました。

🔍注目ポイント

国際音声記号(IPA)を統一表現に使い、複雑な前処理なしでゼロショット音声クローンを実現します。

🔮これからどうなる

個人が多様な言語で自分の声を使ってコミュニケーションできる可能性が広がります。

X-Voiceは42万時間の多言語コーパスで訓練され、4億パラメータを持つモデルです。
2段階の訓練パラダイムを採用し、プロンプトテキストへの依存を排除しました。
既存の多言語システムを上回り、Qwen3-TTSのような大規模モデルに匹敵する性能を示しています。
💡
編集部の視点

自分の声で30言語を話せるようになるなんて、国際的なビジネスや旅行がもっと身近になりそうですね。これは音声翻訳の未来を大きく変えるかもしれません。

元記事を読む →

関連記事