Pro-KLShampoo: 正交化によりホワイトニングを回復した射影型KL-Shampoo
Pro-KLShampoo: Projected KL-Shampoo with Whitening Recovered by Orthogonalization
記事のポイント
📰ニュース
LLMの事前学習において、既存の最適化手法であるKL-Shampooを改良した「Pro-KLShampoo」が開発されました。
🔍注目ポイント
勾配の行列構造に「スパイク・アンド・フラット」な特性を見出し、これを活用してKL-Shampooの事前条件付けを効率化しています。
🔮これからどうなる
LLMの事前学習が高速化され、より少ない計算資源で高性能なモデルを開発できるようになります。
Pro-KLShampooは、KL-ShampooのKronecker因子が持つ固有値スペクトルの特性を利用し、一部の次元に正交化を適用します。
これにより、完全なKL-Shampooの事前条件付けを代数的に回復しつつ、計算効率を向上させています。
GPT-2やLLaMAなどのモデルで、検証損失、メモリ使用量、学習時間においてKL-Shampooを上回る性能を示しました。
これにより、完全なKL-Shampooの事前条件付けを代数的に回復しつつ、計算効率を向上させています。
GPT-2やLLaMAなどのモデルで、検証損失、メモリ使用量、学習時間においてKL-Shampooを上回る性能を示しました。
LLMの学習効率がさらに向上しそうです。特に大規模モデルの学習コスト削減に貢献し、より多くの企業が高度なAI開発に参入できるかもしれませんね。