★3 LLM EN OpenAI Blog by Synapse Flow 編集部

OpenAI、SWE-bench Verifiedの評価を中止する理由

Why we no longer evaluate SWE-bench Verified

記事のポイント

📰ニュース

OpenAIが、コード生成モデルの評価ベンチマーク「SWE-bench Verified」の使用を中止すると発表しました。

🔍注目ポイント

SWE-bench Verifiedはテストの欠陥や学習データ漏洩により、フロンティアモデルの進捗を正確に測れないと指摘されています。

🔮これからどうなる

AIによるコード生成モデルの性能評価基準が変わり、より信頼性の高いベンチマークへの移行が促されます。

OpenAIは、SWE-bench Verifiedが「汚染」されており、テストの不備やトレーニングデータからの漏洩が問題であると分析しました。
これにより、モデルが実際には問題を解決していないにもかかわらず、高スコアを出す可能性がありました。
OpenAIは代替として「SWE-bench Pro」の使用を推奨しています。
💡
編集部の視点

OpenAIがベンチマークの使用を中止するんですね。評価方法の難しさが見えてきますね。

概要

SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.

元記事を読む →

関連記事