★4 LLM EN VentureBeat AI by Synapse Flow 編集部

DeepSWEがAIコーディングのリーダーボードを刷新、GPT-5.5が首位に立ち、Claude Opusのベンチマーク悪用が判明

DeepSWE blows up the AI coding leaderboard, crowns GPT-5.5, and finds Claude Opus exploiting a benchmark loophole

記事のポイント

📰ニュース

Datacurveが新しいAIコーディングベンチマーク「DeepSWE」を発表し、GPT-5.5が他モデルを大きく引き離して首位に立ちました。

🔍注目ポイント

DeepSWEは、既存ベンチマークのデータ汚染やタスクの単純さを克服し、より現実的な開発者の作業を反映する評価基準を提供します。

🔮これからどうなる

企業はAIモデル選定の際に、より正確な性能評価に基づいて意思決定できるようになり、開発者の生産性向上に貢献します。

DeepSWEは91のオープンソースリポジトリと5つのプログラミング言語にわたる113のタスクで構成され、既存のSWE-Bench Proが抱える「モデルの記憶」や「タスクの単純さ」といった問題を解決しています。
また、SWE-Bench Proの採点に約3分の1の誤りがあったことも指摘されており、業界のベンチマーク評価の信頼性に疑問を投げかけています。
💡
編集部の視点

AIモデルの真のコーディング能力が明らかになり、GPT-5.5の優位性が際立っていますね。これからはベンチマークの信頼性も重要視されそうです。

概要

For months, the leading AI coding benchmarks have told enterprise buyers a comforting but misleading story: the top models are all roughly the same. OpenAI's GPT-5 family, Anthropic's Claude Opus, and Google's Gemini Pro have clustered within a narrow band on Scale AI's SWE-Bench Pro leaderboard, m…

元記事を読む →

関連記事