推論誘導型グラウンディング:マルチモーダル大規模言語モデルによるビデオ異常検知の向上
Reasoning-Guided Grounding: Elevating Video Anomaly Detection through Multimodal Large Language Models
記事のポイント
📰ニュース
マルチモーダル大規模言語モデル(VLM)を活用し、ビデオ異常検知(VAD)において異常の分類、空間特定、推論を統合するフレームワーク「VANGUARD」が提案されました。
🔍注目ポイント
VANGUARDは、段階的な学習カリキュラムと教師・生徒型アノテーションパイプラインにより、解釈可能な推論と正確な空間特定を同時に実現します。
🔮これからどうなる
監視システムやセキュリティ分野で、異常発生時の状況理解と迅速な対応が向上し、より信頼性の高い自動監視が可能になります。
従来のVADは異常の有無を判断するのみで、なぜ異常なのか、どこで発生したのかを説明できませんでした。
VANGUARDは、Qwen3-VL-4Bを教師モデルとして推論を生成し、GroundingDINOでバウンディングボックスを教師として学習することで、この課題を解決します。
UCF-Crimeデータセットで94%のROC-AUCと84%のF1スコアを達成し、XD-ViolenceやShanghaiTechへのゼロショット転移も成功しました。
VANGUARDは、Qwen3-VL-4Bを教師モデルとして推論を生成し、GroundingDINOでバウンディングボックスを教師として学習することで、この課題を解決します。
UCF-Crimeデータセットで94%のROC-AUCと84%のF1スコアを達成し、XD-ViolenceやShanghaiTechへのゼロショット転移も成功しました。
ビデオ監視の精度と解釈性が格段に向上しそうですね。異常検知の現場で、なぜ異常なのか、どこで起きているのかが明確になるのは、セキュリティ担当者にとって非常に役立つはずです。