When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models
記事のポイント
📰ニュース
LLMが多人数会話で発話タイミングを学習するための大規模データセット「When2Speak」が公開されました。
🔍注目ポイント
21.5万例以上の合成データと4段階生成パイプラインにより、LLMがいつ発話すべきかを学習する精度を大幅に向上させます。
🔮これからどうなる
LLMがより自然で適切なタイミングで会話に参加できるようになり、ユーザー体験が向上するでしょう。
When2Speakは、2〜6人の話者による1.6万以上の会話から派生したデータセットで、発話すべきか沈黙すべきかを明示的にモデル化しています。
このデータセットでのSFTにより、ゼロショットベースラインと比較してMacro F1スコアが平均60%向上し、最大120%の改善が見られました。
さらに、強化学習と非対称報酬整形を適用することで、発話すべきタイミングを逃す割合(MIR)を大幅に削減しています。
このデータセットでのSFTにより、ゼロショットベースラインと比較してMacro F1スコアが平均60%向上し、最大120%の改善が見られました。
さらに、強化学習と非対称報酬整形を適用することで、発話すべきタイミングを逃す割合(MIR)を大幅に削減しています。
LLMが多人数での会話で「いつ話すか」を学ぶのは、まるで人間が場の空気を読むようなもので、これはチャットボットの応答が格段に自然になるかもしれませんね。会議の議事録作成やカスタマーサポートの自動化に役立ちそうです。