GPT-5.5が新ベンチマーク「Agents’ Last Exam」でClaude Fable 5を破る番狂わせ
Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark
記事のポイント
カリフォルニア大学バークレー校が開発した新ベンチマーク「Agents’ Last Exam (ALE)」で、OpenAIのGPT-5.5がAnthropicのClaude Fable 5を上回り、首位を獲得しました。
ALEは、AIが経済的価値のある長期的な専門的ワークフローを実際に実行できるかを評価するため、従来のベンチマークの弱点を克服した厳格なテストです。
この結果は、AIモデルの真の能力を測る新たな基準を提示し、実社会でのAI活用に向けた開発競争を加速させるでしょう。
従来のベンチマークで問題となっていた「カンニング」や不正確な評価を排除するため、決定論的なコードベースの評価を重視しています。
55の産業分野にわたる1,490のタスクで構成され、最終的には5,000タスクを目指しています。
概要
Researchers from the University of California, Berkeley's Center for Responsible, Decentralized Intelligence (RDI), alongside an advisory committee of over 300 domain experts, have launched Agents’ Last Exam (ALE)—a grueling new benchmark built to measure whether artificial intelligence can actuall…
新しいベンチマークでGPT-5.5が最新のClaudeを上回ったのは驚きですね。これはAIが実務でどれだけ使えるかを示す重要な指標になりそうです。私たちの仕事のやり方も大きく変わるかもしれませんね。