★4 LLM EN The Decoder 2026年6月6日 19:50 by Synapse Flow 編集部

オープンソースの音声モデルがノンストップで聞き取り、0.4秒ごとに発話か沈黙かを判断

New open-source voice model listens nonstop and decides every 0.4 seconds whether to speak or stay silent

記事のポイント

📰ニュース

新しいオープンソース音声モデルが、ノンストップで音声を処理し、0.4秒ごとに発話の要否を判断します。

🔍注目ポイント

このモデルは、録音終了を待たずにリアルタイムで翻訳・文字起こし・会話を行い、咳などの日常音も認識します。

🔮これからどうなる

リアルタイム音声対話システムやスマートデバイスの応答性が向上し、より自然な人間とAIの対話が可能になります。

Audio Interactionと名付けられたこのモデルは、GPT-4oやQwen3.5-Omniとは異なり、単一のストリームで音声を処理します。
コードとモデルの重みはApache 2.0ライセンスでGitHubにて公開されており、学習データも今後公開される予定です。

💡

編集部の視点

このリアルタイム音声処理は、スマートスピーカーや会議システムでのAIの応答性を劇的に向上させそうです。私たちの生活がより便利になるかもしれませんね。

元記事を読む →

中国のMoonshot AIがAlibaba経由で約2万個のNVIDIA製AIチップを調達したと報じられました。

DeepSeekがGPT-5.6 Lunaと同等性能で安価なオープンAIモデル「DeepSeek-V4-Flash-0731」を公開しました。

OpenAIの次期AIモデル「Astra」が数学・理論計算機科学の未解決課題10件で新成果を出しました。

Alibaba CloudがAIモデル「Qwen3.8-Max」をリリースし、来週にはモデルの重みを公開すると発表しました。