CoCoReviewBench:AI査読者の完全性と正確性に着目したベンチマーク
AI査読システムの評価における課題を解決するため、完全性と正確性を重視した新たなベンチマーク「CoCoRev…
AI査読システムの評価における課題を解決するため、完全性と正確性を重視した新たなベンチマーク「CoCoRev…
離散フローマッチングモデルの推論を高速化する新しい蒸留手法が開発されました。
言語モデルが将来のトークンを計画する内部表現をどこで形成し、それが生成を因果的に駆動するかを研究し…
LLMが選択するツールがモデル内部で線形に読み取り可能かつ操作可能であることが判明しました。
言語モデルの調整手法であるDPOを、ペア比較だけでなく、より複雑な選好グラフ構造に対応させるGraphDPOが…
バイトレベル言語モデルの生成速度を大幅に向上させる新しいトレーニングと生成技術が開発されました。
LLMが自然言語からSQLクエリを生成するText-to-SQLタスクにおいて、CA-SQLが困難な問題で高い性能を達成し…
LLMエージェントの記憶(コンテキストウィンドウ)を拡張すると、複数エージェント間の協力行動が低下する…
エージェントが過去の対話から高品質な長期記憶を生成する新しいシステムが開発されました。
LLMベースのAIエージェントが、医薬品の競合薬発見と属性抽出で高い精度と速度を達成しました。
視覚言語モデルの推論コスト削減のため、レイヤースキップの理論的条件を提案する研究が発表されました。
言語モデルが最終応答を生成する前に、潜在的な失敗を列挙・分析・制約する新しいフレームワーク「InvThin…