マルチモーダル推論のための構造化役割認識ポリシー最適化
大規模視覚言語モデルのマルチモーダル推論能力を向上させる新しい強化学習手法が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
大規模視覚言語モデルのマルチモーダル推論能力を向上させる新しい強化学習手法が提案されました。
エージェント型コード修復において、弱フィードバック環境下でのGRPO性能を向上させる信号再形成手法が開…
LLMベースのエージェントがマルチエージェント環境で対戦相手の行動を正確に予測する新しいフレームワーク…
AIエージェントの記憶が、無関係な情報が増えるにつれていつまで使えるかを評価する新しいプロトコルが提…
強化学習で訓練されたLLMの推論において、不必要に長い応答を短縮しつつ精度を維持・向上させる新手法が提…
LLMを活用し、観測データから常微分方程式を自動的に発見する新しい手法「DoLQ」が提案されました。
LLMがツールを連携させる際、連続的なフローとして扱うことで、推論の精度と汎用性を向上させる新手法「Fl…
LLMが推論過程の信頼度を自己評価し、誤った中間ステップを修正する新手法が開発されました。
LLMがグラフデータ上で多段階推論を行うための「GraphReAct」フレームワークが提案されました。
モデルベースのオフライン強化学習において、汎化性能とロバスト性の両立を目指す新しい手法「PSPO」が提…
表現力豊かな記述論理の概念学習において、有界適合という手法が実用的なアプローチとして有効であること…
マルチモーダルモデルの学習データ選択を効率化する「One-Step-Train(OST)」フレームワークが発表されま…