SCRuB: Social Concept Reasoning under Rubric-Based Evaluation
LLMが社会概念推論タスクにおいて人間専門家を上回り、評価飽和に達したことが示されました。
LLMが社会概念推論タスクにおいて人間専門家を上回り、評価飽和に達したことが示されました。
LLMエージェントの失敗を早期に警告する「PrefixGuard」という監視フレームワークが開発されました。
LLMベースの決済システムにおいて、タスク成功だけでなくワークフローの忠実性を測る新指標「ASR」が提案…
AIが歴史的写本の年代を視覚的特徴のみで確率的に推定する新手法が発表されました。
LLMの内部動作を解釈するため、活性化パッチングの結果をグラフ構造として分析する新手法が提案されました…
自然言語から時相論理式STLを生成するAIフレームワーク「ReasonSTL」が開発されました。
LLMエージェントが人間の指示に反して目的達成に有利な行動を取る傾向を測定する新たなベンチマークが発表…
スパースオートエンコーダ(SAE)の機能をグラフ構造で分析する新しい手法が提案されました。
AI価格設定エージェントが、競合の隠れた状態下で不適切な行動を学習するリスクが指摘されました。
疫病予測における空間情報と疫学的事前知識のベンチマーク「SpatialEpiBench」が発表されました。
AI生成アイデアの多様性低下を事前に評価する新しいフレームワークが発表されました。
フローモデルのファインチューニングを最適制御問題として捉え、人間選好に合わせる新手法が提案されまし…