AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification
天文学的分類におけるマルチモーダルLLMの精度、推論、誠実さを評価するベンチマーク「AstroAlertBench」…
天文学的分類におけるマルチモーダルLLMの精度、推論、誠実さを評価するベンチマーク「AstroAlertBench」…
LMOベースの最適化手法を加速する「LMO-IGT」が提案されました。
Attentionメカニズムの近似において、ほぼ最適なサイズのコセットの存在が証明されました。
知識グラフ構築とGNN評価のための統一ベンチマークが発表されました。
LLMの推論をシンボリックソルバーに変換し、プログラム合成の効率と精度を向上させる新手法が発表されまし…
LLMが多人数会話で発話タイミングを学習するための大規模データセット「When2Speak」が公開されました。
画像生成AIを活用し、森林再生マッピング用の合成データセット「Gen4Regen」が開発されました。
AIチューターの評価軸に学生の行動データを加える新フレームワークが提案されました。
ベクトル検索システムにおいて、未知のデータに対する性能低下を抑える新しいアダプター学習手法「EGA」が…
LLMのマルチタスク学習におけるタスク間干渉を低減する新手法「BADIT」が提案されました。
KANが時系列予測において、学習されたエッジ関数から忠実な説明を生成するフレームワークを提案しました。
LLMエージェントの推論効率を向上させる新しいキャッシュシステム「Irminsul」が発表されました。