★3 LLM EN OpenAI Blog 2026年2月23日 20:00 by Synapse Flow 編集部

OpenAI、SWE-bench Verifiedの評価を中止する理由

Why we no longer evaluate SWE-bench Verified

記事のポイント

📰ニュース

OpenAIが、コード生成モデルの評価ベンチマーク「SWE-bench Verified」の使用を中止すると発表しました。

🔍注目ポイント

SWE-bench Verifiedはテストの欠陥や学習データ漏洩により、フロンティアモデルの進捗を正確に測れないと指摘されています。

🔮これからどうなる

AIによるコード生成モデルの性能評価基準が変わり、より信頼性の高いベンチマークへの移行が促されます。

OpenAIは、SWE-bench Verifiedが「汚染」されており、テストの不備やトレーニングデータからの漏洩が問題であると分析しました。
これにより、モデルが実際には問題を解決していないにもかかわらず、高スコアを出す可能性がありました。
OpenAIは代替として「SWE-bench Pro」の使用を推奨しています。

💡

編集部の視点

OpenAIがベンチマークの使用を中止するんですね。評価方法の難しさが見えてきますね。

元記事を読む →