KL for a KL: 制御変量ベースラインを用いたオンポリシー蒸留
大規模言語モデルのオンポリシー蒸留(OPD)の学習を安定させる新しい手法「vOPD」が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
大規模言語モデルのオンポリシー蒸留(OPD)の学習を安定させる新しい手法「vOPD」が提案されました。
深層ニューラルネットワークの学習過程における隠れ層の重みスペクトルの進化を理論的に解析しました。
動画理解の報酬モデル開発を促進するため、新しいベンチマークと大規模なデータセットが発表されました。
ストリーミング動画をリアルタイムで理解するAIモデルが、効率的な記憶管理と高い精度を両立する新フレー…
AI査読システムの評価における課題を解決するため、完全性と正確性を重視した新たなベンチマーク「CoCoRev…
離散フローマッチングモデルの推論を高速化する新しい蒸留手法が開発されました。
言語モデルが将来のトークンを計画する内部表現をどこで形成し、それが生成を因果的に駆動するかを研究し…
LLMが選択するツールがモデル内部で線形に読み取り可能かつ操作可能であることが判明しました。
言語モデルの調整手法であるDPOを、ペア比較だけでなく、より複雑な選好グラフ構造に対応させるGraphDPOが…
バイトレベル言語モデルの生成速度を大幅に向上させる新しいトレーニングと生成技術が開発されました。
LLMが自然言語からSQLクエリを生成するText-to-SQLタスクにおいて、CA-SQLが困難な問題で高い性能を達成し…
LLMエージェントの記憶(コンテキストウィンドウ)を拡張すると、複数エージェント間の協力行動が低下する…