X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning
記事のポイント
📰ニュース
X-Voiceは、ゼロショットで30言語に対応する多言語音声クローンモデルを発表しました。
🔍注目ポイント
国際音声記号(IPA)を統一表現に使い、複雑な前処理なしでゼロショット音声クローンを実現します。
🔮これからどうなる
個人が多様な言語で自分の声を使ってコミュニケーションできる可能性が広がります。
X-Voiceは42万時間の多言語コーパスで訓練され、4億パラメータを持つモデルです。
2段階の訓練パラダイムを採用し、プロンプトテキストへの依存を排除しました。
既存の多言語システムを上回り、Qwen3-TTSのような大規模モデルに匹敵する性能を示しています。
2段階の訓練パラダイムを採用し、プロンプトテキストへの依存を排除しました。
既存の多言語システムを上回り、Qwen3-TTSのような大規模モデルに匹敵する性能を示しています。
自分の声で30言語を話せるようになるなんて、国際的なビジネスや旅行がもっと身近になりそうですね。これは音声翻訳の未来を大きく変えるかもしれません。