環境レベルのクエリによるワールドモデル学習のベンチマーク
AIエージェントのワールドモデル学習を評価する新しいベンチマーク「WorldTest」が提案されました。
AIエージェントのワールドモデル学習を評価する新しいベンチマーク「WorldTest」が提案されました。
大規模推論モデルの訓練のため、推論とソルバーの能力に適応するデータ合成手法が開発されました。
LLMの出力が安全要件を満たす確率を、決定論的に検証するフレームワーク「BEAVER」が発表されました。
LLMを活用し、自然言語の指示からPDDLモデルを生成し、計画を策定するエンドツーエンドのフレームワークが…
LLMの科学的発見能力を評価する新しいベンチマーク「SDEフレームワーク」が発表されました。
大規模推論モデルの強化学習において、データ効率を大幅に向上させる新手法「Miner」が開発されました。
感情サポート対話エージェントの性能を、外部ツール活用を含めて評価する初のベンチマーク「TEA-Bench」が…
汎用AIモデルの時系列データ処理能力を評価する、TSRBenchという新しいベンチマークが発表されました。
大規模推論モデルの安全性を、外部教師なしで自己生成型アライメントにより向上させる新手法「ThinkSafe」…
ウェブエージェントの非効率な検索軌跡をグラフベースの剪定で最適化するフレームワーク「WebClipper」が…
LLMのハルシネーションを埋め込み空間の幾何学に基づいて分類し、検出可能性を予測する研究が発表されまし…
LLMが生成するインタラクティブなHTMLベースのアプリケーション「MiniApps」の評価ベンチマーク「MiniAppB…