★4 LLM EN arXiv cs.AI 2026年5月11日 13:00 by Synapse Flow 編集部

SlopCodeBench：反復的な長期間タスクにおけるコーディングエージェントの劣化をベンチマーク

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

記事のポイント

📰ニュース

コーディングAIが反復的なソフトウェア開発タスクでどのようにコード品質が劣化するかを測定する新たなベンチマーク「SlopCodeBench」が発表されました。

🔍注目ポイント

エージェントが自身のソリューションを繰り返し拡張する設計で、コードの構造的劣化と冗長性を評価し、人間のコードと比較しています。

🔮これからどうなる

AIによるソフトウェア開発の信頼性と保守性を向上させるための重要な課題が浮き彫りになり、開発者はより堅牢なAIツールを求めるでしょう。

SlopCodeBenchは36の問題と196のチェックポイントで構成され、エージェントは自身のソリューションを繰り返し拡張します。
15のコーディングエージェントを評価した結果、どのエージェントも問題を完全に解決できず、最良のエージェントでもチェックポイントの14.8%しか通過できませんでした。
エージェントのコードはオープンソースのPythonリポジトリと比較して2.3倍冗長で、2.0倍構造的に劣化していることが判明しました。

💡

編集部の視点

AIによるコード生成は便利ですが、長期的なプロジェクトではコードの品質劣化が課題になりそうです。開発現場では、AIが生成したコードのレビューやリファクタリングの重要性が増すかもしれませんね。

元記事を読む →