新ベンチマークでClaude MythosとGPT-5.5がブラウザの脆弱性を自律的に悪用可能と判明
New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously
記事のポイント
カーネギーメロン大学の研究者が、AIエージェントがブラウザの脆弱性を自律的に悪用できるかを測る新ベンチマークを開発しました。
このベンチマークにより、Claude MythosとGPT-5.5がGoogle V8エンジンの実際の脆弱性を自律的に悪用できることが示されました。
AIによるサイバー攻撃の脅威が高まり、企業や個人のセキュリティ対策の強化が喫緊の課題となるでしょう。
このテストでは、Claude MythosがGPT-5.5を大きく上回る性能を示しましたが、コストは12倍かかります。
これは、AIが高度なサイバー攻撃を自律的に実行する能力を持つ可能性を示唆しています。
概要
Researchers at Carnegie Mellon University built a new benchmark that measures how far AI agents can go when exploiting real vulnerabilities in Google's V8 engine. Mythos leads GPT-5.5 by a wide margin but costs twelve times as much. The article New benchmark shows Claude Mythos and GPT-5.5 can deve…
AIが自律的に脆弱性を悪用できるのは驚きですね。私たちの個人情報や企業のシステムを守るため、AIによるサイバーセキュリティ対策が急務になりそうです。