オープンソースの音声モデルがノンストップで聞き取り、0.4秒ごとに発話か沈黙かを判断
New open-source voice model listens nonstop and decides every 0.4 seconds whether to speak or stay silent
記事のポイント
新しいオープンソース音声モデルが、ノンストップで音声を処理し、0.4秒ごとに発話の要否を判断します。
このモデルは、録音終了を待たずにリアルタイムで翻訳・文字起こし・会話を行い、咳などの日常音も認識します。
リアルタイム音声対話システムやスマートデバイスの応答性が向上し、より自然な人間とAIの対話が可能になります。
コードとモデルの重みはApache 2.0ライセンスでGitHubにて公開されており、学習データも今後公開される予定です。
概要
Unlike GPT-4o or Qwen3.5-Omni, Audio Interaction doesn't wait for a recording to end: it translates, transcribes, chats, and picks up everyday noises like coughing in a single stream. Code, model weights, and download instructions are available on GitHub under the Apache 2.0 open-source license, wi…
このリアルタイム音声処理は、スマートスピーカーや会議システムでのAIの応答性を劇的に向上させそうです。私たちの生活がより便利になるかもしれませんね。