VCBench:ベンチャーキャピタルにおけるLLMのベンチマーク
ベンチャーキャピタル分野で創業者の成功を予測する初のLLM向けベンチマーク「VCBench」が発表されました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
ベンチャーキャピタル分野で創業者の成功を予測する初のLLM向けベンチマーク「VCBench」が発表されました。
在庫管理において、人間、LLM、数理最適化(OR)アルゴリズムが連携することで、単独よりも高いパフォーマ…
LLMエージェントが長期的タスクで計画と実行を分離する新しい階層的学習フレームワーク「HiMAC」が開発さ…
手術中の煙で視界が悪くなる問題を、拡散モデルと強化学習で解決する新手法が開発されました。
AIエージェントの失敗によるユーザー損害を補償する「Agentic Risk Standard (ARS)」が提案されました。
LLMなどの汎用AIエージェントの非推移的な相互作用を評価する新しいフレームワークが発表されました。
AIエージェントが自律的に行動すべきか、助けを求めるべきかを判断する能力を測る新しいベンチマーク「HiL…
LLMエージェントが実際のハードウェアバグを修正する能力を評価する大規模ベンチマーク「HWE-Bench」が発…
言語モデルが多様な推論戦略を探索し、より正確な応答を生成する新しい学習フレームワーク「Poly-EPO」が…
AIシステムのガバナンス理論に関する5つの主要な結果と、それらをCoqで機械検証した研究が発表されました。
AIシステムが実行する行動に対するガバナンスが、構造的な欠陥により機能不全に陥る問題を指摘する論文が…
GUI操作を自然言語から視覚座標へマッピングする新しい自己蒸留フレームワークが開発されました。