gpt-oss-safeguard技術レポート
gpt-oss-safeguard technical report
記事のポイント
📰ニュース
OpenAIが、ポリシーに基づいてコンテンツを分類する推論モデル「gpt-oss-safeguard」を発表しました。
🔍注目ポイント
gpt-ossモデルをベースに、特定のポリシーに従ってコンテンツをラベリングする能力を後学習で獲得しています。
🔮これからどうなる
AIが生成するコンテンツの安全性とコンプライアンスを向上させ、悪用リスク低減に貢献します。
gpt-oss-safeguard-120bとgpt-oss-safeguard-20bの2つのモデルがあり、gpt-ossモデルをベースにしています。
このレポートでは、モデルの能力と安全性評価のベースラインが示されており、ポリシーに基づくコンテンツ分類の精度が検証されています。
このレポートでは、モデルの能力と安全性評価のベースラインが示されており、ポリシーに基づくコンテンツ分類の精度が検証されています。
概要
gpt-oss-safeguard-120b and gpt-oss-safeguard-20b are two open-weight reasoning models post-trained from the gpt-oss models and trained to reason from a provided policy in order to label content under that policy. In this report, we describe gpt-oss-safeguard’s capabilities and provide our baseline …
OpenAIのこのモデルは、私たちが日々触れるデジタルコンテンツの安全性を高めてくれるでしょう。