N
OpenAI、SWE-bench Verifiedの評価を中止する理由
OpenAIが、コード生成モデルの評価ベンチマーク「SWE-bench Verified」の使用を中止すると発表しました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
OpenAIが、コード生成モデルの評価ベンチマーク「SWE-bench Verified」の使用を中止すると発表しました。
AIデータセンターが電力効率向上のため、高温超電導ケーブルの導入を検討しています。
OpenAIが、数学の「First Proof」チャレンジにAIモデルの証明提出を行い、研究レベルの推論能力を披露しま…
ローカルAI推論ライブラリのGGMLとllama.cppがHugging Faceに合流しました。
米国と中国は、AI開発において異なる目標とアプローチを追求していることが明らかになりました。
OpenAIがAIアライメントの独立研究を支援するため、The Alignment Projectに750万ドルを拠出しました。
IBMとUCバークレーが、企業向けAIエージェントの失敗原因を特定する研究を発表しました。
Gradioが新機能gr.HTMLをリリースし、任意のウェブアプリを簡単にGradioアプリに統合可能になりました。
OpenAIとParadigmが、AIエージェントのスマートコントラクト脆弱性対応能力を評価するベンチマーク「EVMbe…
OpenAIのGPT-5.2がグルーオン振幅の新しい公式を提案し、学術協力者により証明・検証されました。
OpenAIがGPTを活用し、質的データを量的データに変換するオープンソースツール「GABRIEL」を公開しました。
Hugging Faceが、実世界環境でツールを使用するAIエージェントの評価フレームワーク「OpenEnv」を発表しま…