日本初、スキルプラス株式会社が個人や企業向けに写真と音声から自動で動画を生成するソリューション「メタスピーカー®️（Meta Speaker®️）」発表。

映像配信者や各種企業向けにセミナー、eラーニング講座の企画・販売事業を行うスキルプラス株式会社（所在地：東京都港区、代表取締役塚田侑、以下スキルプラス）は、消費者の生活に動画コンテンツが非常に身近になった現代における動画素材の制作業務に対して、「撮影・収録からの解放」をコンセプトに、写真と音声から本人や講師そっくりのアバター「デジタルヒューマン」を生成するソリューション「メタスピーカー®️」の開発を発表いたします。

デジタルヒューマン及び「メタスピーカー®️」は、学習・教育用の講義映像やオンライン商品発表会・動画説明書など、現代における多くの動画映像の作成費用と手間が大幅に短縮できるソリューションとなります。

スキルプラスは、こちらのサービスを近く販売開始し、販売代理店も合わせて近く募集いたします。実際のデジタルヒューマンの映像については、下記Youtube映像をご覧ください。

尚、「メタスピーカー®️」の仕様に関しては、著作権・著作隣接権、肖像権等の各法律に準拠して運用しております。音声についても、持ち込み音声ファイルの使用の他、原稿の自動読み上げ機能による多言語自動音声生成にも対応しております。

【開発の背景】
コロナ禍により、各種セミナー・研修のオンライン化、eラーニング講座化の需要が高まる一方、「講座撮影、収録に敷居が高く、大幅な時間がかかる」「撮影時に複数の専門家が立ち会う必要がある」などの課題が依然ありました。

それらを解消するため、スキルプラスでは「撮影・収録の工程を無くす」ために、デジタルヒューマンの講師としての活用を模索していました。

そしてこの度、イスラエルのAI先端開発企業De-Identification, Ltd.（本社：イスラエル　テルアビブ、CEO: Gil Perry）と提携し、同社の技術提供のもと、写真と音声、文章からデジタルヒューマンを生成するシステム「メタスピーカー®️」を開発、ローンチに至りました。当プレスリリースに使用している合成音声は「メタスピーカー®️」を使用し、代表本人の声より合成音声を生成しております。

「メタスピーカー®️」紹介映像

通常では30分程度のeラーニング講座を収録する場合、移動時間、準備、撮影、撤収を含めて弊社ではこれまで最低でも4時間もの時間を確保していました。また、当日現場へは講師、撮影スタッフ1名、ディレクター1名の立ち会いが必要でした。

「メタスピーカー®️」であれば、数十分の動画について1人のスタッフが約三十分からデジタルヒューマンの映像を生成でき、撮影の手配や場所取りなどを含めた大幅な工数の削減が期待できます。

eラーニング講座映像サンプル（講師:ディライト株式会社代表取締役齋木修次）

また、デジタルヒューマン以外の映像素材においても映像内に表示するパワーポイントのスライドのアップロードや制作補助、多言語に対応した自然音声合成のライブラリ、利用者自身の声を使った音声合成ライブラリの作成と使用、そしてそれらにテロップやワイプ映像を用いて一つの動画を作成するなど、多くの映像作成のソリューションを提供予定です。

更に、個人やスタートアップ企業向けに提供するスキルプラスの映像配信のプラットフォームをバックエンドで用意しております。

配信する講座や説明の映像を、視聴者がどこまで見て習熟したか、バックエンドで確認したり、視聴を促す為の取り組みが最初からセットされています。

これらのソリューションを使うことで、全ての方々が高度にパーソナライズされた魅力的なコンテンツを簡単かつ効率的に作成できます。

今後はメタスピーカー®️を活用したeラーニング講座のプロデュースをしていくとともに、デジタルヒューマンの活用が求められる業界への展開も視野に入れています。