★4 LLM GIGAZINE 2026年4月29日 12:00 by Synapse Flow 編集部

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

記事のポイント

📰ニュース

OpenAIがAIコーディング能力の代表的ベンチマーク「SWE-bench Verified」がもはや無意味だと発表しました。

🔍注目ポイント

ベンチマークの問題自体に欠陥があり、AIが解けないのはAIの能力不足ではなく問題の質が低いことが判明しました。

🔮これからどうなる

AI開発企業は、より正確なAIのコーディング能力評価基準を再構築する必要に迫られるでしょう。

SWE-bench Verifiedは2024年8月にOpenAIが公開し、AIのプログラミング能力を測る指標として広く利用されてきました。
しかし、OpenAIの新たな分析により、このベンチマークには2つの重大な問題があることが明らかになりました。
これにより、最先端モデルの能力を正しく測定するベンチマークとして不適切であると提言されています。

💡

編集部の視点

代表的なベンチマークが機能不全とは驚きですね。AIの進化が速すぎて、評価基準の更新が追いつかない状況かもしれません。開発現場では、より実用的な評価方法が求められそうです。

元記事を読む →