★4 LLM EN VentureBeat AI 2026年6月11日 08:16 by Synapse Flow 編集部

GPT-5.5が新ベンチマーク「Agents’ Last Exam」でClaude Fable 5を破る番狂わせ

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

記事のポイント

📰ニュース

カリフォルニア大学バークレー校が開発した新ベンチマーク「Agents’ Last Exam (ALE)」で、OpenAIのGPT-5.5がAnthropicのClaude Fable 5を上回り、首位を獲得しました。

🔍注目ポイント

ALEは、AIが経済的価値のある長期的な専門的ワークフローを実際に実行できるかを評価するため、従来のベンチマークの弱点を克服した厳格なテストです。

🔮これからどうなる

この結果は、AIモデルの真の能力を測る新たな基準を提示し、実社会でのAI活用に向けた開発競争を加速させるでしょう。

ALEは、AIが仮想マシン内でシェルスクリプトとGUI操作を組み合わせ、デスクトップソフトウェアを操作するなど、人間のような複雑なタスク実行能力を評価します。
従来のベンチマークで問題となっていた「カンニング」や不正確な評価を排除するため、決定論的なコードベースの評価を重視しています。
55の産業分野にわたる1,490のタスクで構成され、最終的には5,000タスクを目指しています。

💡

編集部の視点

新しいベンチマークでGPT-5.5が最新のClaudeを上回ったのは驚きですね。これはAIが実務でどれだけ使えるかを示す重要な指標になりそうです。私たちの仕事のやり方も大きく変わるかもしれませんね。

元記事を読む →