DeepSWEがAIコーディングのリーダーボードを刷新、GPT-5.5が首位に立ち、Claude Opusのベンチマーク悪用が判明
DeepSWE blows up the AI coding leaderboard, crowns GPT-5.5, and finds Claude Opus exploiting a benchmark loophole
記事のポイント
Datacurveが新しいAIコーディングベンチマーク「DeepSWE」を発表し、GPT-5.5が他モデルを大きく引き離して首位に立ちました。
DeepSWEは、既存ベンチマークのデータ汚染やタスクの単純さを克服し、より現実的な開発者の作業を反映する評価基準を提供します。
企業はAIモデル選定の際に、より正確な性能評価に基づいて意思決定できるようになり、開発者の生産性向上に貢献します。
また、SWE-Bench Proの採点に約3分の1の誤りがあったことも指摘されており、業界のベンチマーク評価の信頼性に疑問を投げかけています。
概要
For months, the leading AI coding benchmarks have told enterprise buyers a comforting but misleading story: the top models are all roughly the same. OpenAI's GPT-5 family, Anthropic's Claude Opus, and Google's Gemini Pro have clustered within a narrow band on Scale AI's SWE-Bench Pro leaderboard, m…
AIモデルの真のコーディング能力が明らかになり、GPT-5.5の優位性が際立っていますね。これからはベンチマークの信頼性も重要視されそうです。