勾配保存の観点から見たRLVRにおける柔軟なエントロピー制御
LLMの推論能力向上に用いられるRLVRにおいて、エントロピー崩壊を抑制する新しい制御メカニズムが提案され…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLMの推論能力向上に用いられるRLVRにおいて、エントロピー崩壊を抑制する新しい制御メカニズムが提案され…
大規模言語モデル(LLM)のオフポリシー強化学習において、高い分散を抑え安定した学習を可能にする新手法…
機械学習や組合せ最適化における非凸関数の最適化を統一的に扱う新しいフレームワークが提案されました。
強化学習において、言語モデルの推論能力向上を目的とした新しいデータサンプリング戦略「Goldilocks」が…
スキーマ制約付きLLM生成のための大規模データセット「ScrapeGraphAI-100k」が公開されました。
LLMがマルチエージェント強化学習の新しいアルゴリズムを自動で発見しました。
LLMの倫理的選択が文脈によって大きく変化し、その隠れた構造が明らかになりました。
オフライン強化学習において、大規模または連続的な行動空間を持つパラメトリックポリシーの理論的保証が…
結腸直腸がんの薬物応答予測に、機械学習とLLMを統合した新しいAIフレームワークが開発されました。
マルチ画像理解タスクで、推論VLMが画像に散漫な注意を向ける「パルス」現象が発見されました。
大規模言語モデルの多言語間での知識の一貫性の問題を、強化学習で改善する手法が開発されました。
協調型LLMエージェントの貢献度を正確に評価する新しい手法「C3」が開発されました。