フレームあたり1トークン:VLAポリシー向けワールドモデルにおける視覚帯域幅の再考
One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy
記事のポイント
📰ニュース
VLAモデルのワールドモデルにおいて、フレームごとの視覚情報を1つのセマンティックトークンに圧縮する手法が開発されました。
🔍注目ポイント
Adaptive Attention Poolingにより各フレームの視覚情報を1トークンに凝縮し、単一のフローマッチング目的で潜在ストリームと行動軌道を生成します。
🔮これからどうなる
ロボットの長期的計画能力が向上し、より少ない計算資源で複雑なタスクを効率的に実行できるようになります。
既存のVLAモデルは高帯域幅で視覚ストリームをワールドモジュールに渡し、行動予測の副産物としてロールアウトを扱っていました。
本手法OneWM-VLAは、MetaWorld MT50で成功率を47.9%から61.3%に向上させ、LIBERO-Longで95.6%を達成しました。
実機Piperアームの布折りタスクでも20.0%から60.0%に改善しています。
本手法OneWM-VLAは、MetaWorld MT50で成功率を47.9%から61.3%に向上させ、LIBERO-Longで95.6%を達成しました。
実機Piperアームの布折りタスクでも20.0%から60.0%に改善しています。
ロボットが複雑なタスクをこなす上で、視覚情報の効率的な処理は重要です。この技術は、ロボットの学習効率を大幅に高め、より賢いロボットの実現に貢献しそうです。