大規模言語モデル評価のための解釈可能でスケーラブルなフレームワーク
大規模言語モデル(LLM)の評価において、従来のベンチマークの課題を解決する新しいフレームワークが提案…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
大規模言語モデル(LLM)の評価において、従来のベンチマークの課題を解決する新しいフレームワークが提案…
LLMの数学的推論能力を評価する新しいベンチマーク「GSM-SEM」が発表されました。
LLMエージェントが患者との対話や検査を通じて、ノイズの多い臨床環境で診断を行う手法が開発されました。
共同オーディオ・ビデオ生成モデルが物理法則を理解しているかを評価するベンチマーク「AV-Phys Bench」が…
LLMの後学習において、希少な高品質データと大量の汎用データを効率的に活用する新しいフレームワークが提…
個別治療効果の推定において、従来の推定器が抱える構造的制約違反と極値バイアスを解決する新しいニュー…
LLMがドメイン知識を効率的に利用するための反復的知識コンパイルアルゴリズム「WiCER」が開発されました。
英語から中国語に翻訳されたLLMベンチマークの評価において、「翻訳税」が単一の数値ではないことが示され…
LLMのファインチューニングにおいて、LoRAと完全ファインチューニングの利点を組み合わせる新手法が提案さ…
LLMベースの推薦システムにおいて、協調的行動とアイテムメタデータを活用し、ランキング品質を最大化する…
WebエージェントがWebページを理解する際の観測空間の粒度を、要素レベルから機能領域レベルに再構築する…
LLMの推論能力向上を目指し、誤った推論ステップへの罰則を動的に調整する新しい強化学習手法が提案されま…