★4 LLM EN Hugging Face Blog 2024年3月20日 09:00 by Synapse Flow 編集部

Cosmopedia: 大規模言語モデル事前学習のための大規模合成データ作成方法

Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models

記事のポイント

📰ニュース

Hugging Faceが大規模言語モデル事前学習用の合成データセット「Cosmopedia」を公開しました。

🔍注目ポイント

既存の高品質データセットを基に、LLMを使って多様な形式の合成データを生成する手法を提案しています。

🔮これからどうなる

高品質な合成データが利用可能になり、LLMの事前学習コスト削減や性能向上が期待されます。

Cosmopediaは、Webデータから抽出された高品質なテキストをシードとして、Mixtral 8x7Bモデルを用いて様々なスタイルの合成データを生成します。
具体的には、ブログ記事、コード、物語、ウェブページ、会話など10種類の形式で、合計300億トークン以上のデータが含まれています。
これにより、多様なタスクに対応できる汎用性の高いLLMの開発に貢献します。

💡

編集部の視点

LLMの事前学習って膨大なデータが必要だけど、合成データで補えるのはすごいね！これで新しいモデル開発がもっと加速しそうだよ。

元記事を読む →