★4 LLM EN VentureBeat AI by Synapse Flow 編集部

GPT-5.5が新ベンチマーク「Agents’ Last Exam」でClaude Fable 5を破る番狂わせ

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

記事のポイント

📰ニュース

カリフォルニア大学バークレー校が開発した新ベンチマーク「Agents’ Last Exam (ALE)」で、OpenAIのGPT-5.5がAnthropicのClaude Fable 5を上回り、首位を獲得しました。

🔍注目ポイント

ALEは、AIが経済的価値のある長期的な専門的ワークフローを実際に実行できるかを評価するため、従来のベンチマークの弱点を克服した厳格なテストです。

🔮これからどうなる

この結果は、AIモデルの真の能力を測る新たな基準を提示し、実社会でのAI活用に向けた開発競争を加速させるでしょう。

ALEは、AIが仮想マシン内でシェルスクリプトとGUI操作を組み合わせ、デスクトップソフトウェアを操作するなど、人間のような複雑なタスク実行能力を評価します。
従来のベンチマークで問題となっていた「カンニング」や不正確な評価を排除するため、決定論的なコードベースの評価を重視しています。
55の産業分野にわたる1,490のタスクで構成され、最終的には5,000タスクを目指しています。
💡
編集部の視点

新しいベンチマークでGPT-5.5が最新のClaudeを上回ったのは驚きですね。これはAIが実務でどれだけ使えるかを示す重要な指標になりそうです。私たちの仕事のやり方も大きく変わるかもしれませんね。

概要

Researchers from the University of California, Berkeley's Center for Responsible, Decentralized Intelligence (RDI), alongside an advisory committee of over 300 domain experts, have launched Agents’ Last Exam (ALE)—a grueling new benchmark built to measure whether artificial intelligence can actuall…

元記事を読む →

関連記事