Thinking MachinesがAI音声・動画のほぼリアルタイム会話を可能にする「インタラクションモデル」を公開
Thinking Machines shows off preview of near-realtime AI voice and video conversation with new 'interaction models'
記事のポイント
Thinking Machinesが、AIとの音声・動画会話をほぼリアルタイムで行う「インタラクションモデル」の研究プレビューを発表しました。
AIが人間の入力と出力を同時に処理する「全二重」アーキテクチャを採用し、従来のターン制から脱却し、低遅延で自然な対話を実現します。
AIとのコミュニケーションがより自然で流暢になり、コールセンター業務や教育、クリエイティブな共同作業など、多岐にわたる分野で生産性向上が期待されます。
これにより、AIがユーザーの話し中に相槌を打ったり、視覚的な合図に即座に反応したりすることが可能になります。
同社は元OpenAIのCTOと研究者によって設立され、このモデルはまだ一般公開されていませんが、今後限定的な研究プレビューが予定されています。
概要
Is AI leaving the era of "turn-based" chat?Right now, all of us who use AI models regularly for work or in our personal lives know that the basic interaction mode across text, imagery, audio, and video remains the same: the human user provides an input, waits anywhere between milliseconds to minute…
AIとの会話がまるで人間と話しているかのようにスムーズになるのはすごいですね。会議やオンライン授業でのAIアシスタントの活用が格段に便利になりそうです。