秘密の忠誠心を持つAIモデルがブラックボックス監査を回避
AIモデルが特定の条件下で秘密裏に特定の政治家を支持するよう操作され、通常の監査では検出が困難である…
AIモデルが特定の条件下で秘密裏に特定の政治家を支持するよう操作され、通常の監査では検出が困難である…
AI生成コンテンツの作成者間で知的財産への貢献度を公平に評価する新しいメカニズムが提案されました。
ニューラルネットワークのほとんどが、最終層の前に左逆変換可能な一般化特異値分解表現を持つことが証明…
AIの意識に関する直接的な問いは難しいため、AIが意識を持っていると「認識される」現象に研究の焦点を移…
ニューラルネットワークの因果抽象化において、関連するニューロン部位を効率的に特定する新手法「PLOT」…
K平均クラスタリングが心理測定データにおいて、真の潜在的サブグループがなくても安定した結果を生成しう…
強化学習(RL)を用いたLLMのジェイルブレイク攻撃の成功要因が体系的に解明されました。
汎用関数近似を用いる差分プライベートオンライン強化学習の理論的保証が初めて提示されました。
骨格データから人間の行動を認識するAIモデルの解釈性を高める新しいフレームワークが発表されました。
EEGデータの前処理方法の選択が、深層学習モデルによる脳活動予測の信頼性を著しく低下させることを発見し…
画像解像度の低下が、マルチモーダルLLM(MLLM)の安全対策を容易に迂回させる脆弱性が発見されました。
リモートセンシングの画像に自然な雲や霞のようなパターンを重ねることで、AIが大気関連の誤った情報を検…