rinna、人間の評価を利用したGPT言語モデルの強化学習に成功

rinna株式会社（本社：東京都渋谷区、代表取締役：ジャン“クリフ”チェン、以下rinna）は、ChatGPTの学習に利用されている、人間の評価を利用したGPT言語モデルの強化学習に成功しました。そして強化学習済みの日本語に特化した対話GPT言語モデルを、オープンソースで公開したことを発表いたします。

■ 背景

rinnaは「人とAIの共創世界」をビジョンに掲げ、人と人との間にAIが介在することによる豊かなコミュニケーションを通して、すべての人が自分らしい創造性を発揮できる社会の実現を目指しています。このビジョンの実現に向けて、AIりんなをはじめとしたAIキャラクターと人のテキスト・音声・画像を介した新しいコミュニケーションの形を提供してきました。また、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に共感し、研究成果を積極的に発表・公開してきました。これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習モデルを公開し、Hugging Faceでのモデルダウンロード数は累計160万を超え、多くの研究・開発者にご利用いただいています。

■ 概要

2018年にOpenAI社から提案されたGPT (Generative Pre-trained Transformer) は、高速な学習が可能なTransformer構造と大量のテキストを学習データとして利用できる自己教師あり学習により、テキスト生成において技術的なブレイクスルーをもたらしました。その後もGPTは進化を続け、OpenAI社が2022年にサービスを開始したChatGPTは一般のユーザーが広く利用するまでの技術革新となっています。ChatGPTは、汎用GPT-3言語モデルに対して、対話形式でユーザーの指示を遂行できるようにfine-tuningすることによりテキスト生成性能の改善と、人間とGPTによるコミュニケーションの利便性を向上させました。さらに、文章に対する人間の評価を再現する報酬モデルを導入し、その報酬モデルから出力されるスコアを利用した強化学習により、人間の価値観と合わせたテキスト生成を実現しました。

GPTのような大規模言語モデルを学習するためには大量の計算資源が必要となり、誰でも気軽に学習できるわけではないため、多くの研究機関や企業が事前学習した大規模言語モデルをオープンソースで公開することで発展に貢献しています。しかし、オープンソースの大規模言語モデルは英語に特化していることが多く、日本語言語モデルの選択肢や性能は十分ではありません。

rinnaは2023年5月17日に、日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開し、日本語言語モデルの選択の幅を広げました。しかし、公開した対話言語モデルでは、ChatGPTの学習パートの一部にあたる対話形式でユーザーの指示を遂行できるようなfine-tuningに留まり、人間の評価を利用した強化学習は実現していませんでした。そしてこの度、ChatGPTに用いられている学習手法である、人間の評価を利用したGPT言語モデルの強化学習に成功しました。強化学習済みの日本語に特化した36億パラメータを持つ対話GPT言語モデルについては、オープンソースで公開いたします。このモデル公開により、日本語言語モデルを活用した研究・開発がより発展することを期待します。

・強化学習済み対話GPT言語モデル：

rinna/japanese-gpt-neox-3.6b-instruction-ppo · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

■ 公開したrinnaの日本語に特化した強化学習済み対話GPT言語モデルの特徴

・36億パラメータを持つ汎用GPT言語モデル ( https://huggingface.co/rinna/japanese-gpt-neox-3.6b ) をベースに、対話GPT言語モデルへのfine-tuning ( https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-sft-v2 ) と強化学習を行っています。

・強化学習には、HH-RLHF ( https://huggingface.co/datasets/Anthropic/hh-rlhf ) の一部を日本語に翻訳したデータを用いています。

・強化学習済みのモデルは、Hugging Faceに商用利用可能なMIT Licenseで公開されています。

・特定の利用目的に対して性能を最適化させたい場合には、fine-tuningやin-context learningにより精度向上を目指すことができます。

・強化学習済みと強化学習前の対話GPT言語モデルの性能を、人間による評価とChatGPTによる自動評価で比較しました。人間による評価では、強化学習済みの返答が良いが47%、差がないが31%、悪いが22%となり、ChatGPTによる自動評価では、強化学習済みの返答が良いが63%、差がないが3%、悪いが34%となりました。両評価手法で、人間の評価を利用した強化学習による性能向上が確認されました。

■ 今後の展開

ChatGPTの登場により、テキスト生成の技術を気軽に利用することが可能となりましたが、特定のタスクに特化したテキスト生成・低コスト化・セキュリティ強化のためには、利用目的に則した独自の言語モデルの開発が必要となってきます。これまでにrinnaでは、大規模言語モデルの学習・fine-tuning・in-context learningなどの実験を通して、いくつもの独自言語モデルを開発してきました。そして今回の人間の評価を用いた強化学習の成功により、人間の価値観や目的に合ったテキスト生成も可能となりました。今後は、より大規模な言語モデルへの適用と軽量・高速・高性能な言語モデルの検討の両側面で研究・開発を続けていきます。また、AIの社会実装を進めるためにパートナーを広く募り、rinnaの技術を活用していきます。

■rinna Research Twitterアカウント

このたびrinnaの研究成果について発信する公式アカウントを開設いたしました。ぜひフォローしてください。

rinna Research (@rinna_research) on X

rinna株式会社 Research : | Hugging Face : | GitHub : | Zenn :

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げた AI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

※文中の社名、商品名などは各社の商標または登録商標である場合があります。