RLVRの最適化ダイナミクス:勾配ギャップとステップサイズ閾値
検証可能な報酬による強化学習(RLVR)の理論的基盤が構築され、その収束条件が解明されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
検証可能な報酬による強化学習(RLVR)の理論的基盤が構築され、その収束条件が解明されました。
AIモデルが自身の計算ステップ数を動的に調整し、応答準備ができたことを示す新しい学習手法が提案されま…
MLPの代替として注目されるKANsに関する包括的なレビューが公開されました。
LLMの医療応用における信頼性と安全性の課題を解決するため、新しい評価ベンチマーク「MediEval」が開発さ…
HERMESは、ストリーミング動画をリアルタイムかつ高精度に理解する、学習不要の新しいアーキテクチャです。
言語モデルがユーザーの状況(状態)を考慮せず、固定的な特性(特性)のみに基づいて応答していることが…
LLMエージェントが自動でデータ処理戦略を生成・最適化し、モデルのファインチューニングを効率化します。
LLM推論の分散アーキテクチャにおいて、アテンションとFFNの最適なリソース比率を決定する分析フレームワ…
LLMが検証不可能なタスクで自己進化できるよう、メタ評価を用いたフレームワークが提案されました。
LLMがプライバシー侵害や著作権侵害などのコンテンツを継続的に忘却する新フレームワーク「FIT」が開発さ…
言語モデルの入力埋め込みと出力射影を分離する新しいTransformerアーキテクチャ「Leviathan」が発表され…
LLMが標準アメリカ英語以外の英語方言を認識し、自然な対話を生成する能力を向上させるフレームワークが開…