N
BrowseComp:ブラウジングエージェントのためのベンチマーク
OpenAIがブラウジングAIエージェントの性能を評価する新しいベンチマーク「BrowseComp」を発表しました。
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
OpenAIがブラウジングAIエージェントの性能を評価する新しいベンチマーク「BrowseComp」を発表しました。
OpenAIがモデル性能向上と実世界評価のための「パイオニアプログラム」を開始しました。
Hugging Faceがアラビア語LLMの性能を評価する新しいリーダーボードを公開しました。
Hugging Faceが開発するGradioが、ユーザー数100万人を突破しました。
Hugging Faceの人気のNLPコースが、大規模言語モデル(LLM)に特化した内容に刷新されます。
Hugging FaceがLLMの効率的なリクエストキューイング手法を公開しました。
Google DeepMindが汎用人工知能(AGI)開発において、安全性とリスク評価を最優先する方針を発表しました。
OpenAIがAIエージェントのAI研究再現能力を評価するベンチマーク「PaperBench」を発表しました。
Hugging Faceがオープンソースのロボットプロジェクト「Open R1」の進捗を報告しました。
Hugging FaceがSentence Transformers v4でRerankerモデルの学習・ファインチューニング方法を公開しまし…
Google DeepMindが「思考」機能を内蔵した最新のAIモデルGemini 2.5を発表しました。
OpenAIが組織の成長に伴い、リーダーシップ体制の変更を発表しました。