★4 LLM EN The Decoder 2026年7月4日 01:14 by Synapse Flow 編集部

英国AI安全研究所、標準ベンチマークがAIエージェントの能力を過小評価していると発表

UK's AI Security Institute finds standard benchmarks systematically underestimate what AI agents can actually do

記事のポイント

📰ニュース

英国AI安全研究所が、標準的なAI評価がAIエージェントの真の能力を体系的に過小評価していると発表しました。

🔍注目ポイント

計算予算（トークン予算）を増やすと、AIエージェントの成功率が大幅に向上し、特に最新モデルで顕著な効果が見られました。

🔮これからどうなる

AIの評価方法が見直され、より正確な能力測定が可能になることで、AI開発の方向性や投資判断に影響を与えます。

7つのベンチマークを用いた研究で、ソフトウェアエンジニアリングタスクにおいてトークン予算を10倍に増やすと成功率が約25%上昇しました。
この結果は、フロンティアAIの実際の進歩が以前の測定よりも約60%急であることを示唆しています。

💡

編集部の視点

AIの能力評価が実はもっと高かったというのは驚きですね。私たちの仕事や生活にAIがさらに深く関わる可能性を示唆しています。

元記事を読む →

ブリッジウォーターとThinking Machines Labが、GPTとClaudeが金融テストで失敗したと報告しました。

ユーザーの16年分のアニメ感想を読み込ませたAIが、個人の嗜好に合わせた架空アニメを企画しました。

ソラコムがIoTプロジェクトをAIが支援する「SORACOM Agent」を発表しました。

Anthropicのエンジニアが、AIモデル「Claude Fable 5」をサブスクリプションの標準機能として復活させる意…