報酬スコアマッチング:フロー・拡散モデル向け報酬ベース微調整の統一フレームワーク
フローモデルと拡散モデルの報酬ベース微調整手法を「報酬スコアマッチング(RSM)」という共通フレームワ…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
フローモデルと拡散モデルの報酬ベース微調整手法を「報酬スコアマッチング(RSM)」という共通フレームワ…
単一のLLMが潜在空間内でエンコーディング、検索、生成を統合する新しいRAGフレームワーク「LAnR」が提案…
患者の臨床データにおける欠損モダリティを、自己回帰シーケンスモデリングとLLMの因果デコーダーで処理す…
オフポリシー強化学習において、批評家学習の過学習と不安定性を低ランク適応(LoRA)で解決する手法が提…
AIエージェントが予測市場で取引し、分散した私的情報を集約する能力を実験で検証しました。
ささやき声でも高精度に個人を識別できる話者認識システムが開発されました。
AIが科学教室における生徒と教師の発話を自動分析し、推論パターンを分類するシステムが開発されました。
Mochiは、メタ学習フレームワークを採用し、グラフ基盤モデルのタスク統合と訓練効率を向上させました。
人間型ボールボットに強化学習による初の歩行ポリシーが実装され、シミュレーションから実機へのゼロショ…
推論モデルの学習におけるSFT-then-RLVRの有効性を、Tsallis q-対数を用いた統一的な損失関数で理論的に説…
ロボットの行動実行と高忠実度な4D世界合成を両立する統一4D世界モデル「X-WAM」が開発されました。
AIが人間による正解なしに、検証可能な問題を生成し、解決し、自己改善する新しい学習パラダイムが提案さ…