LLMにおける決定論的計算のためのプロンプトおよび実行ベース手法の評価
LLMが正確な決定論的計算をどの程度実行できるか、様々なプロンプト戦略と外部ツール利用を比較評価しまし…
LLMが正確な決定論的計算をどの程度実行できるか、様々なプロンプト戦略と外部ツール利用を比較評価しまし…
LLMの旅行計画能力を5つのサブ能力に分解し、個別に評価する新しい手法が提案されました。
LLMを活用し、大規模な配送経路最適化問題(CVRP)の高性能ソルバーを自動で設計するフレームワークが開発…
LLMベースのエージェントの記憶障害を、内部回路分析により特定・診断する研究が発表されました。
テキスト-音声検索において、高度な推論能力を評価する初のベンチマーク「ReasonAudio」が発表されました。
LLMを活用し、地質学的な専門知識を模倣した岩相分類システム「GeoDecider」が開発されました。
LLMの倫理的推論を、特定の倫理的枠組みに沿って制御する新しい手法が開発されました。
生成モデルが自己改善により、高品質な計画を高速に生成する新しい手法が開発されました。
LLMの文脈学習において、クエリの難易度に応じてショット数を動的に最適化し、KVキャッシュを効率的に再利…
LLMの予測能力を評価するための、再現可能なベンチマークフレームワーク「OracleProto」が提案されました。
自律型データサイエンスシステムが、エージェント自身が解釈しやすいように設計されたデータサイエンスツ…
LLMの推論能力を向上させるため、最終結果だけでなく推論過程の品質と有用性を評価する新しい訓練フレーム…