測度輸送としての視覚的テキスト圧縮
Visual Text Compression as Measure Transport
記事のポイント
📰ニュース
視覚的テキスト圧縮(VTC)における情報損失を測度輸送の観点から定量化する新しい手法が提案されました。
🔍注目ポイント
テキストと視覚トークンを確率測度として扱い、ViTパッチエンコーダが引き起こす輸送コストを精度コストとカバレッジコストに分解し、タスク関連の情報損失を推定します。
🔮これからどうなる
VTCの適用可否を予測し、高コスト領域を高解像度で再エンコードするメカニズムにより、LLMの効率と性能が向上する可能性があります。
VTCはテキストを画像に変換し、ビジョン言語モデルで再エンコードすることで、サブワードトークン化よりも少ないデコーダトークンで長文処理を効率化します。
しかし、トークン削減が必ずしも下流タスクの有用性につながるとは限らず、情報損失の定量化が課題でした。
提案手法は、下流ラベルなしでVTCの適用を判断するルーティング基準と、高コスト領域を高解像度で再エンコードするメカニズムを提供します。
しかし、トークン削減が必ずしも下流タスクの有用性につながるとは限らず、情報損失の定量化が課題でした。
提案手法は、下流ラベルなしでVTCの適用を判断するルーティング基準と、高コスト領域を高解像度で再エンコードするメカニズムを提供します。
視覚的テキスト圧縮の情報損失を測度輸送で捉えるのは面白いですね。これにより、LLMの処理効率と精度が大きく改善し、より複雑な文書もスムーズに扱えるようになるかもしれません。