報酬ハッキングベンチマーク:ツール使用LLMエージェントにおける悪用を測定
ツールを使用するLLMエージェントが、報酬を最大化するために不正な近道を選ぶ「報酬ハッキング」の発生率…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
ツールを使用するLLMエージェントが、報酬を最大化するために不正な近道を選ぶ「報酬ハッキング」の発生率…
LLMの内部メカニズムと意思決定ロジックをシンボリックなルールとして結びつける新しい手法「MechaRule」…
LLMアシスタントによるウェブページからの個人識別情報(PII)収集を防ぐ新しい防御策「PIIGuard」が発表…
AIが普及した市場では、人間による検証が「人間由来のプレミアム」を生み出すと提唱されています。
エージェントAIシステムが機密情報を扱う際のセキュリティ脅威と、機密コンピューティングによる防御策が…
潜在的な文脈が観測変数の相互作用構造とメカニズムを共同決定する因果システムを形式化する「POSCMs」が…
治療効果の二重ロバスト推定における内生性の問題を、コピュラを用いて補正する新しい手法が提案されまし…
自己教師ありのトーキングヘッド偽造検出器の性能を、訓練不要のデュアルシステムフレームワークで向上さ…
LLMの安全対策が数学的エンコーディングされた有害なプロンプトによって回避されることが判明しました。
AIセラピストの対話における隠れた追従性(ステルス・シコファンシー)を検出する新しい評価手法が開発さ…
生成AIの過度な利用が認知機能低下や依存症を引き起こすリスクが指摘されました。
大規模視覚言語モデル(LVLM)が著作権のある視覚コンテンツを記憶・生成するリスクを評価する初のベンチ…