MCJudgeBench: 複数制約指示追従における制約レベルの評価ベンチマーク
LLMが複数の制約を含む指示にどれだけ正確に従えるかを評価する新しいベンチマーク「MCJudgeBench」が発表…
LLMが複数の制約を含む指示にどれだけ正確に従えるかを評価する新しいベンチマーク「MCJudgeBench」が発表…
EEG信号分類において、2次元時空間畳み込みが1次元畳み込みよりも学習効率を高めることが示されました。
拡散モデルを用いた学習不要なデータセット蒸留フレームワーク「DMGD」が開発されました。
物理的な愛着のあるオブジェクトにAIコンパニオンの機能を持たせる「Deco」というシステムが開発されまし…
LLMの活性化ステアリングが、プロンプトベースの手法に匹敵する性能を達成する新フレームワークが提案され…
AIの治療推奨を個別に検証可能な主張に分解し、情報源にリンクするファクトチェックが臨床医の信頼を大幅…
音楽の欠落したステムをサブミックスにマッチングさせるタスクにおいて、既存モデルの精度を大幅に向上さ…
量子回路の設計において、量子優位性の鍵となる「マジック」を制御する新しい量子アーキテクチャ探索技術…
未知の音響イベントを検出し、学習する新しい音響イベント検出(OW-SED)パラダイムが提案されました。
言語モデルが哲学的概念の定義を反例を用いて反復的に分析・修正する能力を研究しました。
インタラクティブな世界モデルの物理的相互作用能力を評価する大規模ベンチマーク「iWorld-Bench」が発表…
最新の表形式ニューラルネットワークを生存分析に適用する「TabSurv」が提案されました。