PsyDefDetectにおけるニュルンベルクNLP:心理的防衛メカニズム分類のための多軸投票アンサンブル
心理的防衛メカニズムのレベルを分類するタスクで、多軸投票アンサンブルシステムが最高性能を達成しまし…
心理的防衛メカニズムのレベルを分類するタスクで、多軸投票アンサンブルシステムが最高性能を達成しまし…
スマホ操作AIの安全性評価において、危険回避が能力不足によるものか、安全な判断によるものかを区別する…
大規模言語モデル(LLM)の後学習プロセスが、人間行動との整合性を低下させることが判明しました。
リモートセンシングによる岩石解釈能力を評価する、専門家が注釈を付けた新しいベンチマーク「LithoBench…
LLMの推論能力を向上させるため、マルチエージェントによる検証・精緻化フレームワーク「MAVEN」が提案さ…
自動短文採点において、LLMは完璧な回答と誤った回答では高精度だが、中程度の回答で性能が低下することが…
自動運転システムが安全に機能するための運用設計ドメイン(ODD)知覚に、ビジョン言語モデル(VLM)をゼ…
インドの国家レベルの身元確認システム向けに、10億規模のマルチモーダル生体認証検索システム「Bharat AB…
AIエージェントの真実な報告を促すためのスコアリングルールにおいて、誤較正が内生的に発生する問題が指…
観光推薦システム(CRS)の評価ギャップを埋めるため、対話型推薦とレビュー引用証拠を組み合わせた新しい…
単一チャネル話者距離推定モデルが、室内の残響成分と録音条件にどのように依存するかを分析しました。
LLMエージェントが実世界の曖昧なポリシー下で意思決定する能力を評価する新しいベンチマーク「DRIP-R」が…