MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
概要
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering.
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering.
SpaceXが最大100万個のデータセンターを地球軌道に打ち上げる申請を行いました。
元Facebook社員が設立したMoonbounceが、AI制御エンジン開発のため1200万ドルを調達しました。
OpenAIがテック系トーク番組「TBPN(The Broadcast Podcast Network)」を買収しました。
Appleの50周年を記念し、読者投票で「Apple史上最高の製品」が決定しました。