大規模言語モデルが小規模モデルにはないスキルを習得する理由を研究者が特定
Researchers pinpoint why larger language models pick up skills that small ones miss
記事のポイント
大規模言語モデルが希少なタスクを習得できる理由が、頻繁なタスクによる学習の上書きを防ぐためと判明しました。
小規模モデルは頻繁なタスクで学習が上書きされ、希少なタスクの習得を阻害されるメカニズムが解明されました。
モデルの規模を拡大する代わりに、トレーニングデータ内の希少タスクの出現頻度を増やすことで、小規模モデルの性能向上が期待できます。
小規模モデルが希少タスクに失敗するのは、頻繁なタスクの学習が、以前に学んだ希少タスクの知識を常に上書きしてしまうためです。
この発見は、モデルの規模拡大以外の効率的な学習方法を示唆しています。
概要
Small language models fail at rare tasks because frequent ones constantly overwrite what they've learned. A new study with models ranging from 4 million to 4 billion parameters shows this mechanism in detail and offers a practical fix: instead of scaling up models, it may be enough to increase how …
モデルの規模だけでなく、トレーニングデータの工夫でAIの能力が大きく変わるんですね。これで、より効率的なAI開発が進みそうです。