状態ごとのミラー降下を超えて:パラメトリックポリシーによるオフライン方策最適化
オフライン強化学習において、大規模または連続的な行動空間を持つパラメトリックポリシーの理論的保証が…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
オフライン強化学習において、大規模または連続的な行動空間を持つパラメトリックポリシーの理論的保証が…
時系列データを用いた政策決定支援のため、計量経済学と因果機械学習の手法を比較評価しました。
結腸直腸がんの薬物応答予測に、機械学習とLLMを統合した新しいAIフレームワークが開発されました。
マルチ画像理解タスクで、推論VLMが画像に散漫な注意を向ける「パルス」現象が発見されました。
大規模言語モデルの多言語間での知識の一貫性の問題を、強化学習で改善する手法が開発されました。
VDCookは、自然言語クエリで動画データを生成・更新できる自己進化型プラットフォームです。
協調型LLMエージェントの貢献度を正確に評価する新しい手法「C3」が開発されました。
自動運転シーンの3D再構築において、LiDARの反射率情報を活用した新しい手法が開発されました。
ログバリア正則化を導入した強化学習アルゴリズム「LB-SGB」が、探索メカニズムを強化し、よりロバストな…
放射線レポート生成に特化したマルチモーダル・マルチエージェント強化学習フレームワーク「MARL-Rad」が…
動画推論モデルが、物体の動きの軌道を明示的に表現し、検証可能にする新手法「Motion-o」を提案しました。
鋼材表面欠陥分析に特化した、多形式のテキスト注釈を持つビジョン言語データセット「SteelDefectX」が発…