Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems
エージェントシステムがアクセス制限された情報で不完全な回答をする問題の評価ベンチマークが発表されま…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
エージェントシステムがアクセス制限された情報で不完全な回答をする問題の評価ベンチマークが発表されま…
AI搭載CCTVが都市設計における交通軟性インフラの効果を分析しました。
金融文書の質問応答に特化した、自己検証機能を備えたエージェント型RAGフレームワーク「FinAgent-RAG」が…
金融業界向けに、高精度で信頼性の高い質問応答を可能にするLLM「FinRAG-12B」が開発されました。
住宅開発の可能性を評価する共通データモデルと都市デジタルツインが発表されました。
AIエージェント時代の認知労働の価格決定メカニズムについて、新たな経済モデルが提唱されました。
金融市場でAIが自動的に適応し、高収益を狙うマルチエージェントフレームワーク「AlphaCrafter」が発表さ…
個別化医療における治療効果予測の精度向上を目指し、バイアスと精度のトレードオフを解決する新AI手法が…
JDがLLMの推論能力を向上させる新手法「AGPO」を発表しました。
LLMの言語表現を広告の自動入札システムに組み込む新しいフレームワーク「SemBid」が提案されました。
インターネット・オブ・バリュー(IoV)における複合的なリスクを評価するAIエージェントのアーキテクチャ…
知識追跡(Knowledge Tracing: KT)における選択バイアスを軽減する新しい学習フレームワークが提案されま…