Poly-EPO:探索的推論モデルの学習
言語モデルが多様な推論戦略を探索し、より正確な応答を生成する新しい学習フレームワーク「Poly-EPO」が…
言語モデルが多様な推論戦略を探索し、より正確な応答を生成する新しい学習フレームワーク「Poly-EPO」が…
再帰的なLLMループが安定したパターンから別の状態へ移行するために必要なテキスト量と、その移行の持続性…
小規模LLMが自身の回答の正確性をゼロショットで推定する手法が、教師あり学習のベースラインを上回る性能…
人間脳にヒントを得た継続学習アルゴリズムが、スパイクニューラルネットワーク(SNN)の効率的なタスク学…
深層学習の最適化アルゴリズム「Muon」向けに、GPUに最適化された高速な極分解計算手法「Polar Express」…
離散自己回帰正規化フローの推論速度を最大4.7倍高速化する新手法が提案されました。
ReCodeは、推論プロセスの品質を最適化する新しい強化学習フレームワークです。
ソフトウェア開発における課題とコミットの関連付けを自動で復元するLLMベースのエージェント「LinkAnchor…
LLMベースのエージェントがパラメータ更新なしでラベル付きデータから学習する新しいフレームワークが提案…
LLMの動作原理を解明するため、統計物理学などに基づいた「意味論的情報理論」が提唱されました。
マルチターンLLMエージェントの処理を高速化する新しいKVキャッシュ管理システム「CacheTTL」が発表されま…
LLMが学術引用を生成する際の記憶メカニズムを、引用数と事実の正確性から分析しました。