LLMにおける決定論的計算のためのプロンプトおよび実行ベース手法の評価
LLMが正確な決定論的計算をどの程度実行できるか、様々なプロンプト戦略と外部ツール利用を比較評価しまし…
LLMが正確な決定論的計算をどの程度実行できるか、様々なプロンプト戦略と外部ツール利用を比較評価しまし…
ブラウザベースのAIエージェント「cotomi Act」が、ユーザーの作業を観察して自動化を学習する技術を発表…
LLM搭載エージェントの安全判断能力を評価するため、欺瞞的なリスクを含む新たなベンチマークが開発されま…
LLMの旅行計画能力を5つのサブ能力に分解し、個別に評価する新しい手法が提案されました。
LLMを活用し、大規模な配送経路最適化問題(CVRP)の高性能ソルバーを自動で設計するフレームワークが開発…
LLMベースのエージェントの記憶障害を、内部回路分析により特定・診断する研究が発表されました。
テキスト-音声検索において、高度な推論能力を評価する初のベンチマーク「ReasonAudio」が発表されました。
LLMを活用し、地質学的な専門知識を模倣した岩相分類システム「GeoDecider」が開発されました。
AIエージェントの誤動作や意図しない副作用を防ぐための「堅牢なエージェント補償(RAC)」という新しい回…
事前学習済み拡散モデルを使い、少数のサンプルで未知のデータ(OOD)を検出する新手法が開発されました。
隠蔽情報伝送とタスク指向セマンティック符号化を統合した新しい通信フレームワークが提案されました。
連合学習環境下で、異なるアーキテクチャを持つ視覚言語モデルをプライバシーを保護しつつアライメントす…