科学的発見における大規模言語モデルの評価
LLMの科学的発見能力を評価する新しいベンチマーク「SDEフレームワーク」が発表されました。
LLMの科学的発見能力を評価する新しいベンチマーク「SDEフレームワーク」が発表されました。
大規模推論モデルの強化学習において、データ効率を大幅に向上させる新手法「Miner」が開発されました。
感情サポート対話エージェントの性能を、外部ツール活用を含めて評価する初のベンチマーク「TEA-Bench」が…
汎用AIモデルの時系列データ処理能力を評価する、TSRBenchという新しいベンチマークが発表されました。
大規模推論モデルの安全性を、外部教師なしで自己生成型アライメントにより向上させる新手法「ThinkSafe」…
教師ありスパースオートエンコーダ(SAE)が、Stable Diffusion 3.5で画像の再構成と編集に成功しました。
ウェブエージェントの非効率な検索軌跡をグラフベースの剪定で最適化するフレームワーク「WebClipper」が…
LLMのハルシネーションを埋め込み空間の幾何学に基づいて分類し、検出可能性を予測する研究が発表されまし…
多言語・非英語圏の医薬品資産を効率的に探索するAIエージェントが開発されました。
モバイルデバイス上でユーザーの潜在的な意図を予測し、自律的に行動するプロアクティブAIの性能を評価す…
LLMが生成するインタラクティブなHTMLベースのアプリケーション「MiniApps」の評価ベンチマーク「MiniAppB…
言語モデルが多段階で外部情報を収集し、知識集約型タスクを解決するエージェント型検索の新しい学習フレ…