N
SWE-Lancerベンチマークの紹介
OpenAIが、LLMが実世界のソフトウェア開発で稼げるかを測るSWE-Lancerベンチマークを発表しました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
OpenAIが、LLMが実世界のソフトウェア開発で稼げるかを測るSWE-Lancerベンチマークを発表しました。
Hugging FaceがオープンLLMリーダーボードの評価方法を改善するため、数学検証タスク「Math-Verify」を導…
Hugging Faceのオープンソースモデルが、画像分類タスクで累計10億回の分類を達成しました。
Hugging Faceが動画生成モデルの学習に不可欠な高品質データセットの構築方法を解説しました。
Hugging FaceがオープンソースAIモデル「Open R1」の最新アップデートを公開しました。
Hugging Faceがアラビア語大規模言語モデルの性能を評価する「オープンアラビア語LLMリーダーボード2」を…
Hugging Faceが、オープンソースの検索エージェントフレームワーク「DeepResearch」を公開しました。
Hugging Faceが汎用ロボット制御用の視覚・言語・行動モデル「π0」と「π0-FAST」を発表しました。
多段階推論能力を評価する新しいデータエージェントベンチマーク「DABStep」が発表されました。
OpenAIの深層研究が、コンサルティング会社ベイン・アンド・カンパニーの複雑な業界トレンド分析に活用さ…
Hugging Faceがオープンソースロボットプロジェクト「Open-R1」の進捗を報告しました。
Hugging FaceがDeepseek R1の強化学習における「アハ体験」を再現するチュートリアルを公開しました。