Workspace-Bench 1.0: 大規模ファイル依存関係を持つワークスペースタスクにおけるAIエージェントのベンチマーク
AIエージェントが大規模なファイル依存関係を持つワークスペースタスクを処理する能力を評価する新しいベ…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
AIエージェントが大規模なファイル依存関係を持つワークスペースタスクを処理する能力を評価する新しいベ…
LLMの倫理的推論を、特定の倫理的枠組みに沿って制御する新しい手法が開発されました。
生成モデルが自己改善により、高品質な計画を高速に生成する新しい手法が開発されました。
LLMの文脈学習において、クエリの難易度に応じてショット数を動的に最適化し、KVキャッシュを効率的に再利…
AIモデルが酪農場における低排出肥料の導入をシミュレートし、脱炭素化への影響を評価しました。
長時間稼働するAIエージェントのメモリ一貫性問題を解決する新しい階層型メモリシステム「MEMTIER」が発表…
LLMの予測能力を評価するための、再現可能なベンチマークフレームワーク「OracleProto」が提案されました。
VLMエージェントが、視覚と言語の予測と現実の乖離を好奇心として活用し、探索能力を向上させました。
LLMが自然言語で指示されたドローン群のミッションを自律的に実行するフレームワークが開発されました。
リソースが限られたデバイス上で、LLMエージェントの長期パーソナライズ記憶を効率的に実現するフレームワ…
自律型データサイエンスシステムが、エージェント自身が解釈しやすいように設計されたデータサイエンスツ…
ロボット倉庫システムで注文割り当てとロボットスケジューリングをリアルタイムで統合最適化する深層強化…