★4 AI倫理 EN OpenAI Blog by Synapse Flow 編集部

オープンウェイトLLMの最悪ケースにおけるフロンティアリスクの推定

Estimating worst case frontier risks of open weight LLMs

記事のポイント

📰ニュース

OpenAIが、オープンソースLLM「gpt-oss」の悪用リスクを評価する研究を発表しました。

🔍注目ポイント

悪意あるファインチューニング(MFT)を導入し、生物学とサイバーセキュリティ分野で最大の悪用能力を引き出そうと試みました。

🔮これからどうなる

オープンソースAIのリリースがもたらす潜在的な危険性を具体的に示し、開発者や政策立案者に警鐘を鳴らします。

本研究は、gpt-ossをファインチューニングすることで、生物学とサイバーセキュリティの2つのドメインで、可能な限り高い能力を引き出すことを試みています。
これは、オープンウェイトLLMが悪意のある目的に利用された場合の最悪のシナリオを想定したものです。
研究結果は、オープンソースAIの安全な開発と展開のための重要な考慮事項を提供します。
💡
編集部の視点

オープンソースLLMの悪用リスク評価は、私たちが安心してAIを活用するためにとても大切な一歩ですね。

概要

In this paper, we study the worst-case frontier risks of releasing gpt-oss. We introduce malicious fine-tuning (MFT), where we attempt to elicit maximum capabilities by fine-tuning gpt-oss to be as capable as possible in two domains: biology and cybersecurity.

元記事を読む →

関連記事