■ 背景
rinnaは「人とAIの共創世界」をビジョンに掲げ、人と人との間にAIが介在することによる豊かなコミュニケーションを通して、すべての人が自分らしい創造性を発揮できる社会の実現を目指しています。このビジョンの実現に向けて、AIりんなをはじめとしたAIキャラクターと人のテキスト・音声・画像を介した新しいコミュニケーションの形を提供してきました。また、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に共感し、研究成果を積極的に発表・公開してきました。これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習モデルを公開し、Hugging Faceでのモデルダウンロード数は累計160万を超え、多くの研究・開発者にご利用いただいています。
■ 概要
2018年にOpenAI社から提案されたGPT (Generative Pre-trained Transformer) は、高速な学習が可能なTransformer構造と大量のテキストを学習データとして利用できる自己教師あり学習により、テキスト生成において技術的なブレイクスルーをもたらしました。その後もGPTは進化を続け、OpenAI社が2022年にサービスを開始したChatGPTは一般のユーザーが広く利用するまでの技術革新となっています。ChatGPTは、汎用GPT-3言語モデルに対して対話形式でユーザーの指示を遂行するタスクを実現するようなfine-tuningと、生成されたテキストに対して人間の評価を再現する報酬モデルのスコアを導入した強化学習により構築されます。
GPTのような大規模言語モデルを学習するためには大量の計算資源が必要となり、誰でも気軽に学習できるわけではないため、多くの研究機関や企業が事前学習した大規模言語モデルをオープンソースで公開することで発展に貢献しています。しかし、オープンソースの大規模言語モデルは英語に特化していることが多く、日本語言語モデルの選択肢は十分にあるわけではありません。rinnaはこれまでに日本語に特化した13億パラメータのGPTなどを公開し、多くの研究・開発者にご利用いただいていますが、この度、より利用の幅を広げられるよう日本語に特化した36億パラメータを持つ汎用言語モデルと対話言語モデルの2種類のGPT言語モデルをオープンソースで公開いたします。これらのモデル公開により、日本語言語モデルを活用した研究・開発がより発展することを期待します。
・汎用GPT言語モデル(Hugging Faceリンク):
https://huggingface.co/rinna/japanese-gpt-neox-3.6b
・対話GPT言語モデル(Hugging Faceリンク):
https://huggingface.co/rinna/japanese-gpt-neox-3.6b-instruction-sft
■ rinnaの36億パラメータの日本語GPT言語モデルの特徴
特定のドメイン特化ではない汎用GPT言語モデル (rinna/japanese-gpt-neox-3.6b) と、汎用GPT言語モデルを対話形式の指示遂行ドメインにfine-tuningした対話GPT言語モデル (rinna/japanese-gpt-neox-3.6b-instruction-sft) を学習し公開しました。これらのモデルには以下の特徴があります。
・汎用言語モデルは、日本語のWikipedia ( https://huggingface.co/datasets/wikipedia )・C4 ( https://huggingface.co/datasets/mc4 )・CC-100 ( https://huggingface.co/datasets/cc100 ) のオープンソースデータを用いて学習されています。対話言語モデルは、HH-RLHF ( https://huggingface.co/datasets/Anthropic/hh-rlhf )・SHP ( https://huggingface.co/datasets/stanfordnlp/SHP )・FLAN ( https://github.com/google-research/FLAN ) の一部を日本語に翻訳したデータを用いて学習されています。
・汎用言語モデルのperplexityは8.68を達成しています。8.68 perplexityとは、GPTが次の単語を予測するときに単語の候補数を8.68に絞られていることを意味します。
・対話言語モデルのインターフェースは、対話形式を採用しユーザーが利用しやすいように設計しています。
・事前学習済みのモデルは、Hugging Faceに商用利用可能なMIT Licenseで公開されています。
・ユーザーは、2種類のモデルから利用者の目的に応じて最適なモデルを選択することができます。さらに、特定の利用目的に対して性能を最適化させたい場合には、fine-tuningやin-context learningにより精度向上を目指すことができます。
対話GPT言語モデルの例は以下になります(「」が言語モデルへの入力テキスト、『』が生成されたテキスト)。
例1:
「ユーザー: 西田幾多郎とは誰ですか。
システム:」
『西田幾多郎は、哲学において日本の現代思想に大きな影響を与え、現代日本の哲学の最高の人物の一人とされています。彼は、日本の主要な現代哲学者の一人であり、また、現代日本の哲学において彼の影響力が広範であるとされる書籍「善の研究」の著者でもあります。』
例2:
「ユーザー: 日本のおすすめの観光地を教えてください。
システム: どの地域の観光地が知りたいですか?
ユーザー: 渋谷の観光地を教えてください。
システム:」
『分かりました。いくつかのおすすめを紹介します。
1. ハチ公像です。ハチ公像は、日本の観光スポットの1つとして人気があります。
2. スクランブル交差点です。多くの人々が行き交う大きな交差点で、観光客に人気のスポットです。
3. 109です。109は、ショッピングやエンターテイメント施設です。
4. 道玄坂です。道玄坂は、日本の商業地区である坂道です。』
■ 今後の展開
rinnaの研究チームが開発する大規模な事前学習モデルは、すでに自社製品に広く利用されています。今後もAIに関する研究を続け、研究成果は引き続き公開することで研究・開発コミュニティに還元していきます。また、他社との協業も進めることで、AIの社会実装の拡大を目指します。
【rinna株式会社について】
「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げた AI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。
※文中の社名、商品名などは各社の商標または登録商標である場合があります。