From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse Autoencoder Features
記事のポイント
📰ニュース
スパースオートエンコーダ(SAE)の機能をグラフ構造で分析する新しい手法が提案されました。
🔍注目ポイント
トークン共起グラフとWL型グラフカーネルを用いることで、SAE機能間の高次な構造的関係を明らかにします。
🔮これからどうなる
AIモデルの内部動作をより深く理解できるようになり、信頼性と安全性の向上に貢献します。
SAEはTransformerの活性化を単一意味の機能に分解しますが、これまでの分析はトークンリストやデコーダ重みに限定されていました。
本研究では、各SAE機能をトークン共起グラフとしてモデル化し、カスタムのWL型グラフカーネルで構造的類似性を測定します。
これにより、従来の分析では見過ごされていた句読点パターンや言語クラスターなどの構造的関係が明らかになりました。
本研究では、各SAE機能をトークン共起グラフとしてモデル化し、カスタムのWL型グラフカーネルで構造的類似性を測定します。
これにより、従来の分析では見過ごされていた句読点パターンや言語クラスターなどの構造的関係が明らかになりました。
LLMの「ブラックボックス」問題解明に一歩近づく重要な研究ですね。モデルが何を学習しているのか、より具体的に可視化できるようになりそうです。