★4 LLM EN arXiv cs.AI 2026年5月11日 13:00 by Synapse Flow 編集部

VITA-QinYu: ロールプレイングと歌唱に対応した表現豊かな音声言語モデル

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

記事のポイント

📰ニュース

VITA-QinYuは、ロールプレイングと歌唱の両方を生成できる初の表現豊かなエンドツーエンド音声言語モデルです。

🔍注目ポイント

ハイブリッドな音声・テキストパラダイムとマルチコードブック音声トークンにより、豊かな非言語表現とモダリティ分離を両立させています。

🔮これからどうなる

AIがより人間らしい感情や表現を持つことで、エンターテイメントや教育分野でのユーザー体験が大きく向上するでしょう。

VITA-QinYuは、自然な会話に加え、ロールプレイングや歌唱の生成をサポートします。
15.8K時間の多様なデータで学習され、ロールプレイングと歌唱の客観的評価で既存モデルを上回る性能を示しました。
会話の正確性と流暢さも最先端レベルを達成しており、コードとモデルはオープンソース化され、デモも提供されています。

💡

編集部の視点

AIが単なる会話だけでなく、感情を込めた演技や歌までこなせるようになるのは驚きですね。エンタメ業界での活用が加速しそうです。

元記事を読む →