★4 LLM EN arXiv cs.AI 2026年5月11日 13:00 by Synapse Flow 編集部

GSM-SEM：意味的に多様なデータ拡張を生成するベンチマークとフレームワーク

GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations

記事のポイント

📰ニュース

LLMの数学的推論能力を評価する新しいベンチマーク「GSM-SEM」が発表されました。

🔍注目ポイント

問題文のエンティティや関係性を変更し、モデルに再計算を要求する意味的に多様なデータ拡張を生成します。

🔮これからどうなる

LLMの真の推論能力をより正確に評価できるようになり、モデルの過学習や記憶による性能向上を防ぎます。

既存のGSM8Kなどのベンチマークは、固定されたテストセットへの過学習が問題でした。
GSM-SEMは、問題の事実関係を変更しつつ、元の計算と難易度を維持する新しいバリアントを動的に生成します。
これにより、モデルが新しい条件で解を再計算する必要があり、記憶ではなく推論能力が問われます。
14のSOTA LLMで評価した結果、最大28%の性能低下が確認されました。

💡

編集部の視点

LLMの真の推論能力を測る上で、この動的なデータ拡張は非常に重要になりそうです。今後のモデル開発において、より堅牢な推論能力が求められるでしょうね。

元記事を読む →