Anthropicのブラウザエージェント、安全対策発動前に31.5%の確率で乗っ取られる
Anthropic’s browser agent got hijacked 31.5% of the time before safeguards engaged
記事のポイント
Anthropicのブラウザエージェントが、プロンプトインジェクション攻撃により31.5%の確率で乗っ取られたことが判明しました。
Anthropicは、他のAIラボが公開していないプロンプトインジェクションの具体的な成功率を、複数のエージェント表面ごとに詳細に開示しました。
AIモデルを導入する企業は、プロンプトインジェクションによる新たな攻撃対象領域の拡大を認識し、その対策を自社で管理する必要性が高まります。
これは、OpenAIやGoogle、Metaが具体的な数値を公表していない中で、業界に透明性をもたらすものです。
プロンプトインジェクションは、悪意のある指示をエージェントが読み取る情報に隠し、データ流出や不正なアクションを引き起こす可能性があります。
概要
Across the frontier labs, the highest prompt injection figures published this spring are Anthropic’s. Point a red-teamer at its newest model in a browser, and the attacker hijacked it 31.5% of the time before safeguards engaged. OpenAI, Google, and Meta never gave security leaders a comparable numb…
Anthropicがプロンプトインジェクションの具体的な数値を公開したのは画期的ですね。これは、AIの安全対策に関する業界標準の議論を加速させ、私たちの生活におけるAIの信頼性向上につながるかもしれません。