TEA-Bench:ツール強化型感情サポート対話エージェントの体系的ベンチマーク
感情サポート対話エージェントの性能を、外部ツール活用を含めて評価する初のベンチマーク「TEA-Bench」が…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
感情サポート対話エージェントの性能を、外部ツール活用を含めて評価する初のベンチマーク「TEA-Bench」が…
汎用AIモデルの時系列データ処理能力を評価する、TSRBenchという新しいベンチマークが発表されました。
大規模推論モデルの安全性を、外部教師なしで自己生成型アライメントにより向上させる新手法「ThinkSafe」…
ウェブエージェントの非効率な検索軌跡をグラフベースの剪定で最適化するフレームワーク「WebClipper」が…
LLMのハルシネーションを埋め込み空間の幾何学に基づいて分類し、検出可能性を予測する研究が発表されまし…
LLMが生成するインタラクティブなHTMLベースのアプリケーション「MiniApps」の評価ベンチマーク「MiniAppB…
言語モデルが多段階で外部情報を収集し、知識集約型タスクを解決するエージェント型検索の新しい学習フレ…
AIエージェントが他者の行動観察のみで、複雑な環境知識を効率的に獲得するメカニズムが示されました。
LLMの内部活性化を操作しても、同じ挙動をテキストプロンプトで再現できないことが証明されました。
LLMが複数の推論パスを並行して実行し、互いに情報を共有・修正する新しいフレームワーク「LACE」が発表さ…
LLMの多段階事実検証における推論の信頼性と解釈性を向上させる新しいフレームワークが開発されました。
マルチエージェントシステム(MAS)において、単一エージェントの感染が広がる「感染性ジェイルブレイク」…