★4 AI倫理 EN The Decoder 2026年5月16日 22:08 by Synapse Flow 編集部

新ベンチマークでClaude MythosとGPT-5.5がブラウザの脆弱性を自律的に悪用可能と判明

New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously

記事のポイント

📰ニュース

カーネギーメロン大学の研究者が、AIエージェントがブラウザの脆弱性を自律的に悪用できるかを測る新ベンチマークを開発しました。

🔍注目ポイント

このベンチマークにより、Claude MythosとGPT-5.5がGoogle V8エンジンの実際の脆弱性を自律的に悪用できることが示されました。

🔮これからどうなる

AIによるサイバー攻撃の脅威が高まり、企業や個人のセキュリティ対策の強化が喫緊の課題となるでしょう。

カーネギーメロン大学の研究者は、AIエージェントがGoogleのV8エンジンにおける実際の脆弱性をどの程度悪用できるかを測定する新しいベンチマークを構築しました。
このテストでは、Claude MythosがGPT-5.5を大きく上回る性能を示しましたが、コストは12倍かかります。
これは、AIが高度なサイバー攻撃を自律的に実行する能力を持つ可能性を示唆しています。

💡

編集部の視点

AIが自律的に脆弱性を悪用できるのは驚きですね。私たちの個人情報や企業のシステムを守るため、AIによるサイバーセキュリティ対策が急務になりそうです。

概要

Researchers at Carnegie Mellon University built a new benchmark that measures how far AI agents can go when exploiting real vulnerabilities in Google's V8 engine. Mythos leads GPT-5.5 by a wide margin but costs twelve times as much. The article New benchmark shows Claude Mythos and GPT-5.5 can deve…

元記事を読む →