Cosmopedia: 大規模言語モデル事前学習のための大規模合成データ作成方法
Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models
記事のポイント
📰ニュース
Hugging Faceが大規模言語モデル事前学習用の合成データセット「Cosmopedia」を公開しました。
🔍注目ポイント
既存の高品質データセットを基に、LLMを使って多様な形式の合成データを生成する手法を提案しています。
🔮これからどうなる
高品質な合成データが利用可能になり、LLMの事前学習コスト削減や性能向上が期待されます。
Cosmopediaは、Webデータから抽出された高品質なテキストをシードとして、Mixtral 8x7Bモデルを用いて様々なスタイルの合成データを生成します。
具体的には、ブログ記事、コード、物語、ウェブページ、会話など10種類の形式で、合計300億トークン以上のデータが含まれています。
これにより、多様なタスクに対応できる汎用性の高いLLMの開発に貢献します。
具体的には、ブログ記事、コード、物語、ウェブページ、会話など10種類の形式で、合計300億トークン以上のデータが含まれています。
これにより、多様なタスクに対応できる汎用性の高いLLMの開発に貢献します。
LLMの事前学習って膨大なデータが必要だけど、合成データで補えるのはすごいね!これで新しいモデル開発がもっと加速しそうだよ。