Towards Reliable LLM Evaluation: Correcting the Winner's Curse in Adaptive Benchmarking
LLM評価における「勝者の呪い」を修正し、より信頼性の高い評価手法が提案されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
LLM評価における「勝者の呪い」を修正し、より信頼性の高い評価手法が提案されました。
LLMエージェントのプロンプトを不正利用から守る新技術「PragLocker」が発表されました。
iPhoneの動画から生成したモーションブラー除去の難易度別ベンチマーク「iPhoneBlur」が発表されました。
LLMの有害なファインチューニングに対する新たな防御手法「Safety Bottleneck Regularization (SBR)」が提…
半空間における一様収束の挙動を、従来のVC理論を超えて詳細に分析した研究が発表されました。
対話システムが多様な役割を演じる際の、人間らしい発話交代をテストするプラットフォームが発表されまし…
熱画像と可視画像をリアルタイムで融合し、悪条件下での視覚システムの認識精度を向上させる新技術が発表…
テキスト記述から車両画像を検索する新しいAIモデル「PFCVR」が開発されました。
ランダム化アダマール変換(RHT)を用いた量子化手法の理論的裏付けが示されました。
深層学習時系列予測モデルにおいて、合成データが性能に与える影響を大規模に実証研究しました。
AIが科学研究に与える影響を分析した研究が発表されました。
量子カーネルを用いた音声ディープフェイク検出手法「Q-Patch」が提案されました。