CreativityBench:アフォーダンスに基づくツール再利用によるエージェントの創造的推論評価
LLMの創造的推論能力を評価する新しいベンチマーク「CreativityBench」が発表されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの創造的推論能力を評価する新しいベンチマーク「CreativityBench」が発表されました。
承認ベースの委員会投票におけるティーレ・ルールの計算が、特定の構造化された選好領域で効率的に可能に…
AI導入における組織目標と従業員の実際の体験との間に大きな隔たりがあることが研究で明らかになりました。
LLMを活用し、データ分析コードで記号回帰の精度と効率を向上させる新手法が発表されました。
チーム対話からメンタルモデルの不一致をリアルタイムで検出し、4つのタイプに分類するフレームワークが提…
自律エージェントの複雑な連続的振る舞いを、わずか2〜10個の成功実行例から自動的に学習し検証するアルゴ…
Terminus-4Bという小型言語モデルが、エージェントのターミナル実行タスクにおいて最先端LLMと同等以上の…
大規模言語モデル(LLM)による査読自動化の危険性を指摘する論文が発表されました。
ADAPTSは、LLMエージェント混合アーキテクチャを用いて、うつ病と不安症の重症度を自動評価するフレームワ…
LLMが正確な決定論的計算をどの程度実行できるか、様々なプロンプト戦略と外部ツール利用を比較評価しまし…
ブラウザベースのAIエージェント「cotomi Act」が、ユーザーの作業を観察して自動化を学習する技術を発表…
LLM搭載エージェントの安全判断能力を評価するため、欺瞞的なリスクを含む新たなベンチマークが開発されま…