OpenAI、SWE-bench Verifiedの評価を中止する理由
Why we no longer evaluate SWE-bench Verified
記事のポイント
📰ニュース
OpenAIが、コード生成モデルの評価ベンチマーク「SWE-bench Verified」の使用を中止すると発表しました。
🔍注目ポイント
SWE-bench Verifiedはテストの欠陥や学習データ漏洩により、フロンティアモデルの進捗を正確に測れないと指摘されています。
🔮これからどうなる
AIによるコード生成モデルの性能評価基準が変わり、より信頼性の高いベンチマークへの移行が促されます。
OpenAIは、SWE-bench Verifiedが「汚染」されており、テストの不備やトレーニングデータからの漏洩が問題であると分析しました。
これにより、モデルが実際には問題を解決していないにもかかわらず、高スコアを出す可能性がありました。
OpenAIは代替として「SWE-bench Pro」の使用を推奨しています。
これにより、モデルが実際には問題を解決していないにもかかわらず、高スコアを出す可能性がありました。
OpenAIは代替として「SWE-bench Pro」の使用を推奨しています。
概要
SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.
OpenAIがベンチマークの使用を中止するんですね。評価方法の難しさが見えてきますね。