AIエージェントの安全判断強化:欺瞞的なOODシナリオにおけるベンチマーク書き換えと類推推論
LLM搭載エージェントの安全判断能力を評価するため、欺瞞的なリスクを含む新たなベンチマークが開発されま…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLM搭載エージェントの安全判断能力を評価するため、欺瞞的なリスクを含む新たなベンチマークが開発されま…
LLMの旅行計画能力を5つのサブ能力に分解し、個別に評価する新しい手法が提案されました。
LLMを活用し、大規模な配送経路最適化問題(CVRP)の高性能ソルバーを自動で設計するフレームワークが開発…
LLMベースのエージェントの記憶障害を、内部回路分析により特定・診断する研究が発表されました。
テキスト-音声検索において、高度な推論能力を評価する初のベンチマーク「ReasonAudio」が発表されました。
LLMを活用し、地質学的な専門知識を模倣した岩相分類システム「GeoDecider」が開発されました。
AIエージェントの誤動作や意図しない副作用を防ぐための「堅牢なエージェント補償(RAC)」という新しい回…
事前学習済み拡散モデルを使い、少数のサンプルで未知のデータ(OOD)を検出する新手法が開発されました。
隠蔽情報伝送とタスク指向セマンティック符号化を統合した新しい通信フレームワークが提案されました。
連合学習環境下で、異なるアーキテクチャを持つ視覚言語モデルをプライバシーを保護しつつアライメントす…
金融データに特化した時系列推論モデル「FinSTaR」が、既存モデルを大幅に上回る精度で金融タスクを解決し…
実世界の交差点運転データに基づき、自律走行システムの敵対的攻撃に対するロバスト性を評価するフレーム…