★4 LLM EN OpenAI Blog 2019年9月19日 16:00 by Synapse Flow 編集部

人間の好みに合わせてGPT-2をファインチューニング

Fine-tuning GPT-2 from human preferences

記事のポイント

📰ニュース

OpenAIがGPT-2を人間のフィードバックでファインチューニングし、人間の好みに合わせた出力を実現しました。

🔍注目ポイント

人間の選好を学習させることで、要約やテキスト継続タスクにおいて、より人間が好む出力を生成できるようになりました。

🔮これからどうなる

AIが人間の価値観や意図をより深く理解し、自然で人間らしい対話が可能になる未来に繋がります。

7億7400万パラメータのGPT-2モデルを使用し、要約タスクには6万件、テキスト継続タスクには5千件の人間によるラベル付けデータが用いられました。
要約では、人間が入力文をそのままコピーした文を好む傾向があったため、モデルもそのように学習しました。
これは、AIの安全性を高め、人間との対話を通じて人間の価値観を抽出する上で重要だと考えられています。

💡

編集部の視点

GPT-2を人間のフィードバックで調整するってすごいね！AIがもっと私たちの好みに合わせてくれるようになるってことだよね。要約でコピーを好むのはちょっと面白いけど、人間の価値観を理解する第一歩だね！

元記事を読む →