Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination
記事のポイント
📰ニュース
Transformerモデルにおける記憶の競合と幻覚が、隠れ状態空間の「アトラクター幾何学」で説明されました。
🔍注目ポイント
学習された事実がアトラクター盆地を形成し、競合は盆地の競合、幻覚は盆地の欠如として統一的に捉えられます。
🔮これからどうなる
AIの信頼性向上に繋がり、幻覚をより正確に検出し、ユーザーへの誤情報提供リスクを低減できる可能性があります。
言語モデルは、重みに焼き付けられた知識(パラメトリック記憶)と文脈情報(ワーキングメモリ)の2つの知識源に依存します。
本研究では、これら2つの記憶源が競合する場合と、そもそも事実が学習されていない場合の幻覚という2つの失敗モードを分析しました。
出力エントロピーでは検出が困難だった幻覚を、隠れ状態と記憶された盆地との距離(幾何学的マージン)で高精度に分離できることを示しています。
本研究では、これら2つの記憶源が競合する場合と、そもそも事実が学習されていない場合の幻覚という2つの失敗モードを分析しました。
出力エントロピーでは検出が困難だった幻覚を、隠れ状態と記憶された盆地との距離(幾何学的マージン)で高精度に分離できることを示しています。
LLMの幻覚は大きな課題ですが、この研究は隠れ状態の幾何学的な分析でそのメカニズムを解明し、検出の新しい道を開きそうです。今後のAIの信頼性向上に大きく貢献するかもしれませんね。