★4 AI倫理 EN arXiv cs.AI 2026年5月8日 13:00 by Synapse Flow 編集部

洞察と制御のための帰属誘導型プルーニング：小規模LLMにおける回路発見とターゲット修正

Attribution-Guided Pruning for Insight and Control: Circuit Discovery and Targeted Correction in Small-scale LLMs

記事のポイント

📰ニュース

LLMの特定の振る舞いを司る内部回路を、帰属誘導型プルーニングで発見し修正する手法が開発されました。

🔍注目ポイント

Layer-wise Relevance Propagation（LRP）と対照的関連性を用いて、振る舞いに関連するパラメータを特定し、ごく一部のニューロンや重みをプルーニングします。

🔮これからどうなる

LLMの望ましくない振る舞いを、モデルの汎用性能を損なわずに効率的に診断・修正できるようになります。

OPT-125Mにおいて、わずか0.3%のニューロンをプルーニングすることで有害な出力を大幅に削減し、0.03%の重み要素のプルーニングで反復的なテキスト生成を抑制しました。
この手法は他の小規模モデルにも適用可能であり、内部メカニズムの解明と制御に貢献します。

💡

編集部の視点

LLMの「ブラックボックス」問題に一石を投じる研究ですね。有害なコンテンツや偏見の修正が、より精密にできるようになりそうです。

元記事を読む →

パランティアCEOがOpenAIやAnthropicに対し、顧客データ利用によるAIモデル強化の現状を批判しました。

アイルランドのテクノロジーセクターが、AIの普及により広範な雇用市場の混乱とハイテク雇用率の低下に直…

サフラテクノが視覚障害者の歩行をAI音声で支援するデバイスの試作機を開発しました。

中国のAIアプリが人間のようなAIエージェント機能を規制対応のため停止します。