MathlibPR:形式的数学ライブラリのプルリクエストマージ準備度ベンチマーク
LLMが形式的数学ライブラリMathlibのプルリクエスト(PR)レビューを支援できるかを評価するベンチマーク…
LLMが形式的数学ライブラリMathlibのプルリクエスト(PR)レビューを支援できるかを評価するベンチマーク…
HyperEyesは、複数の情報を同時に検索できる並列マルチモーダル検索エージェントです。
単語の境界が破損したテキストに対するLLMの情報検出精度が、U字型の「テキストの不気味の谷」現象を示す…
ゲーミングチャットの有害なメッセージを6つのカテゴリに分類するタスクで、合成データ拡張を用いたLLMの…
大規模言語モデルの幻覚を、生成モデルとは別の小型オープンウェイトモデルの内部活性化を用いて検出する…
LLMの長文コンテキスト推論におけるKVキャッシュのメモリと実行時オーバーヘッドを削減する新しい削除戦略…
異なるLLMが個別のパラメータを保ちつつ、経験を共有して同時に強化学習を行うフレームワークが提案されま…
大規模言語モデルの層剪定による急激な性能低下のメカニズムが、決定表現の遷移を通じて解明されました。
複数の正解を持つ問題に対し、単一の解ではなく解の集合全体を学習する新しいAIモデル「分岐モデル」が提…
時系列データから因果関係を直接発見する新しい深層学習フレームワーク「Mask2Cause」が提案されました。
一人称視点動画からユーザーの意図を予測し、先回りして支援するAIの性能を評価する新たなベンチマークが…
LLMが実際の臨床診断プロセスを模倣し、多段階で能動的に診断を行うための新しい手法が提案されました。