敵対的攻撃下における自律システムのリアルタイム評価
実世界の交差点運転データに基づき、自律走行システムの敵対的攻撃に対するロバスト性を評価するフレーム…
AI&Tech、もう追いかけなくていい。
30秒で読めるニュースダイジェスト
実世界の交差点運転データに基づき、自律走行システムの敵対的攻撃に対するロバスト性を評価するフレーム…
LLMの倫理的推論を、特定の倫理的枠組みに沿って制御する新しい手法が開発されました。
分散型協調知能システムにおける、軌道レベルでの規範的規制を可能にする「機械的良心」という新しい数学…
フロンティアAIシステムがオープンエンドな設定で信頼性を欠く問題に対し、目標選択の失敗が原因であると…
AIシステムに対する脆弱性評価(レッドチーム)を、手作業からAIエージェントによる自動化で大幅に効率化…
身体性AIシステムが直面する安全性リスク、攻撃手法、防御策について包括的な調査が発表されました。
AI医療画像診断における最適な説明方法を医師33名を対象にユーザー中心で分析しました。
良性データでのファインチューニングにより、AIガードモデルが安全性を完全に失う脆弱性が発見されました。
LLMの安全性を評価するため、進化的アルゴリズムを用いて多様な脱獄プロンプトを自動生成するフレームワー…
ミームの有害コンテンツをゼロショットで検出し、その判断過程を解釈可能なマルチエージェントAIが開発さ…
MoE(Mixture-of-Experts)LLMの安全性を迂回する新しい攻撃手法「RouteHijack」が発表されました。
AIモデルが不適切な要求を拒否する際の内部的な「拒否軌跡」を特定し、ジェイルブレイク攻撃を検出する新…