東大松尾研発 ELYZA、独自LLM開発支援プログラムの提供を開始

　言語生成AIの社会実装を進める東京大学松尾研究室発・AIスタートアップの株式会社ELYZA（代表取締役：曽根岡侑也、以下ELYZA）は、企業が独自の大規模言語モデル（以下、LLM）を構築するための支援プログラムの提供を開始します。
　GPTシリーズを活用したDXと並行しつつ自社特化のLLMを開発することで、企業は自社業務に最適化された言語生成AIを利用することが可能となり、競争優位性の強化に直結します。
　本支援プログラムでは、Post-Training基盤の構築（具体的には、個社データを整備・作成し学習する基盤の構築）から支援を行うことで、状況に応じて最善の事前学習済みモデルを元に独自LLMを開発・精度向上し続けられる体制の構築を支援します。

提供背景：GPTによるDXと並行した、研究開発としての独自LLM開発の潮流

　昨今、超大規模言語モデルであるGPTシリーズを中心に言語生成AIの利活用が急速に進んでいます。ELYZAとしてもGPTシリーズを活用したDXを多数支援してきました。

　他方で大手ITベンダーを中心に、研究開発として独自のLLM開発に取り組む企業も現れてきました。一般的に、独自LLMを開発するメリットは以下のようなものがあります。

【独自LLM開発のメリット】

　・専門用語の学習などを通じ、企業固有の業務に特化した活用が可能

　・適切なモデルを利用することで、業務での利用に足る出力速度の実現が可能

　・オンプレミスにより、情報セキュリティの考慮が可能

　上記メリットを踏まえると、以下のようなドメインにおいてはGPTシリーズの活用と並行して独自LLMを構築する蓋然性があると言えます。

【独自LLMが必要になるドメイン】

　①個人情報を中心に情報がセンシティブなドメイン

　　：金融やリーガル等、機密情報の漏洩に厳しくオンプレミス化が必要なケース

　②エッジでの処理が求められるドメイン

　　：産業機械や自動車など、ネットに繋がらない環境で処理するケース

　③専門性が高いドメイン

　　：製薬・医療や金融など、専門用語が多いケース

　こうした企業のニーズを汲み取るかたちで、自社における独自LLM構築の経験と知見を持つELYZAは、GPTシリーズを活用したDX支援と並行し、独自LLM構築支援プログラムの提供を開始します。

「独自LLM構築支援プログラム」の詳細

　独自LLMは一度構築すれば終わりではありません。データ増強に伴う追加トレーニングや、基盤となる事前学習済みモデルのアップデートや新規公開に伴う再トレーニングなど、精度向上に向けた恒久的な研究開発が必要になります。

　本支援プログラムでは、Post-Training基盤の構築（具体的には、個社データを整備・作成し学習する基盤の構築）から支援を行うことで、状況に応じて最善の事前学習済みモデルを元に独自LLMを開発・精度向上し続けられる再現性の高い研究開発体制の構築を支援します。

　また、ELYZAは開発したモデルを業務実装するためのプラットフォーム基盤も有しているため、独自LLM開発の成果を素早く現場検証していく支援も可能です。

独自LLM開発の鍵は「Post-Training」

　独自LLMを開発するためには、Pre-TrainingとPost-Trainingが必要です。２つの学習を経て初めて、様々な知識を獲得しつつ人間の指示通りに対話出力が可能な独自LLMが構築できます。

　Pre-Training（事前学習）

　　大量の文章データをもとに言語を学習させてモデル自体の基礎能力を構築する学習。

　　開発には複数の研究開発過程を経る必要があり、学習に膨大な計算機コストがかかる。

　Post-Training（事後学習）

　　特定の業務やタスクにおいて人間の要求に沿った回答ができるように出力を整える学習。

　　計算機コストに対して性能向上の伸びが良いため、研究開発効率が高い。

　　また、多様なやり方で学習に取り組むことが可能なため、研究開発の余地が大きい。

　Post-Trainingによって出力の精度を向上させるためには、人間が言語生成AIに対して提示した要求や指示に関するデータを学習させる必要があります。このデータの多様性と総量を担保できる環境がPost-Trainingにとって重要となります。加えて、集積したデータをPost-trainingに利用できるかたちに加工する技術と知見も研究開発における重要な要素となります。

　ELYZAでは、2022年11月よりPost-Trainingの研究を強化し、独自のPost-Training基盤を構築したほか、データ加工の技術や知見の獲得にも努めてきました。また、実際に人間が入力することでしか得られない学習用データを、多様かつ大量に収集するためのチャット形式のアプリケーション基盤も保有しています。これらを企業向けに提供することで、Post-Trainingによる独自LLM開発の支援を行っていきます。

本支援プログラムに対するELYZAの想い

　GPTシリーズの隆盛に伴い、ここ数ヶ月の間にも多くのドメインで言語生成AIの利活用が進み、ELYZAとしてもGPTシリーズを活用したDXを多数支援してきました。その一方で、社会実装難易度の高いドメインやケースがあることも浮き彫りになってきています。

　ELYZAは「未踏の領域で、あたりまえを創る」をミッションに掲げ、2018年から言語生成AIの社会実装にむけた活動をして参りました。その過程で、独自の大規模言語モデル(ELYZA Brain)の構築にも成功し、企業への提供を通じてモデル運用の知見も蓄積して参りました。

　ELYZAは、培った技術と知見をもって社会実装難易度の高いドメインに対しても言語生成AIを提供することがミッションに沿う活動だと自認し、今回の支援プログラムの提供を決定いたしました。

ELYZA会社概要
　株式会社ELYZAは、「未踏の領域で、あたりまえを創る」という理念のもと、日本語の大規模言語AIに焦点を当てて企業との共同研究やクラウドサービスの開発を行なっております。「まとめる、書く、読む、話す」といったこれまで難しいとされていた自然言語処理を実用化し、ホワイトカラー業務のDX（※）を推進して参ります。

※ ホワイトカラー業務のDXとは、単純作業だけでなく、人間が言葉を使って行う高度な知能・知識・経験を伴う業務をデジタル化し変革する取り組みです。

＜会社概要＞

社名　：株式会社ELYZA

所在地：〒113-0033 東京都文京区本郷3-15-9 SWTビル 6F

代表者：代表取締役曽根岡侑也

設立　：2018年9月

URL 　：https://elyza.ai/