RLVRにおける暗黙的な報酬の過学習と低ランクダイナミクスについて
RLVR(検証可能な報酬による強化学習)が訓練データに暗黙的に過学習する現象が発見されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
RLVR(検証可能な報酬による強化学習)が訓練データに暗黙的に過学習する現象が発見されました。
動画の背景を自然言語の指示で置き換えるための大規模データセットとモデル「Sparkle」が発表されました。
新しい言語モデル「Cola DLM」が、階層的な潜在拡散アプローチでテキスト生成の効率と品質を向上させまし…
協調型マルチエージェント強化学習の評価において、単なる結果だけでなく、エージェント間の協調メカニズ…
深層学習の最適化において、勾配の方向性の一貫性と損失収束が分離しうる現象が特定されました。
グラフ構造の類似度を測るグラフ編集距離(GED)を、ニューラルネットワークでより正確に推定する研究が発…
DINORANKCLIPは、CLIPの弱点を克服し、視覚言語モデルの性能を向上させる新しい事前学習フレームワークで…
複数の感覚モダリティを統合するマルチエージェント強化学習フレームワーク「CRONA」が提案されました。
大規模言語モデル(LLM)の性能を向上させる自己蒸留の統合フレームワーク「UniSD」が提案されました。
AIエージェントがLinuxバイナリパッチから脆弱性のセキュリティ上の意味を再構築する研究が発表されました…
AIが計算流体力学(CFD)の科学的発見プロセスを自動化する「AI CFDサイエンティスト」が開発されました。
LLMで初期トークンがアテンションを独占する「アテンションシンク」現象の構造的起源が解明されました。