ProgramBench: 言語モデルはプログラムをゼロから再構築できるか?
ProgramBench: Can Language Models Rebuild Programs From Scratch?
記事のポイント
📰ニュース
言語モデルが既存のプログラムとドキュメントから、その挙動を再現するコードベースをゼロから構築する能力を評価する新しいベンチマーク「ProgramBench」が発表されました。
🔍注目ポイント
ProgramBenchは、単一のバグ修正や機能開発ではなく、ソフトウェア全体のアーキテクチャ設計から実装までを評価し、エージェント駆動のファジングでエンドツーエンドの挙動テストを生成します。
🔮これからどうなる
現在の言語モデルは、複雑なソフトウェアの全体的な開発能力が非常に低いことが明らかになり、AIによるソフトウェア開発の自動化にはまだ大きな課題があることが示されました。
ProgramBenchは、CLIツールからFFmpeg、SQLite、PHPインタプリタといった大規模なソフトウェアまで、200のタスクを含みます。
9つの言語モデルを評価した結果、どのモデルもタスクを完全に解決できず、最良のモデルでも3%のタスクで95%のテストをパスするに留まりました。
モデルは人間が書いたコードとは異なり、単一ファイルでモノリシックな実装を好む傾向が見られました。
9つの言語モデルを評価した結果、どのモデルもタスクを完全に解決できず、最良のモデルでも3%のタスクで95%のテストをパスするに留まりました。
モデルは人間が書いたコードとは異なり、単一ファイルでモノリシックな実装を好む傾向が見られました。
言語モデルがソフトウェア開発の全体を担うには、まだ道のりが長そうですね。特に大規模なプロジェクトのアーキテクチャ設計能力の向上が、今後の大きな課題になりそうです。