★4 LLM EN arXiv cs.AI 2026年5月7日 13:00 by Synapse Flow 編集部

推論誘導型グラウンディング：マルチモーダル大規模言語モデルによるビデオ異常検知の向上

Reasoning-Guided Grounding: Elevating Video Anomaly Detection through Multimodal Large Language Models

記事のポイント

📰ニュース

マルチモーダル大規模言語モデル（VLM）を活用し、ビデオ異常検知（VAD）において異常の分類、空間特定、推論を統合するフレームワーク「VANGUARD」が提案されました。

🔍注目ポイント

VANGUARDは、段階的な学習カリキュラムと教師・生徒型アノテーションパイプラインにより、解釈可能な推論と正確な空間特定を同時に実現します。

🔮これからどうなる

監視システムやセキュリティ分野で、異常発生時の状況理解と迅速な対応が向上し、より信頼性の高い自動監視が可能になります。

従来のVADは異常の有無を判断するのみで、なぜ異常なのか、どこで発生したのかを説明できませんでした。
VANGUARDは、Qwen3-VL-4Bを教師モデルとして推論を生成し、GroundingDINOでバウンディングボックスを教師として学習することで、この課題を解決します。
UCF-Crimeデータセットで94%のROC-AUCと84%のF1スコアを達成し、XD-ViolenceやShanghaiTechへのゼロショット転移も成功しました。

💡

編集部の視点

ビデオ監視の精度と解釈性が格段に向上しそうですね。異常検知の現場で、なぜ異常なのか、どこで起きているのかが明確になるのは、セキュリティ担当者にとって非常に役立つはずです。

元記事を読む →