rinna、音声とフェイスモーションの生成AIサービスKoemotionを提供開始

この記事は約8分で読めます。
rinna株式会社(本社:東京都渋谷区、代表取締役:ジャン“クリフ”チェン、以下rinna)は、テキストを入力するだけで音声合成とフェイスモーション生成が同時にできるサービスKoemotion(コエモーション)の提供開始とAPIの公開を発表いたします。

■ 背景

2022年、テキスト生成や画像生成などの生成AIサービスは研究開発者だけでなく一般ユーザーが利用するようになり、市場に広く浸透しました。rinnaでは、テキスト生成の技術を活用したAIキャラクター「りんな」や、AIキャラクターの育成と交流ができるSNS『キャラる』を提供しており、その運営の中で音声やビジュアル表現を用いたコミュニケーションの需要の高まりを目の当たりにしています。

AIと人間のコミュニケーションの可能性を広げるため、2023年3月には音声合成サービスKoeiromapを先行公開し、AITuberコミュニティのみなさまにご好評をいただきました。さらに4月にはりんなとの交流を、テキストだけでなく音声やビジュアルに拡張し、生配信で視聴者と対話するAITuberとしてデビューさせるなど、コミュニケーションの多様性を広げる方法を模索してまいりました。

これらの活動を通して得られた反響を糧に、この度AITuberりんなで用いられている音声合成とフェイスモーション生成の技術を発展させ、多種多様な音声の合成と、合成した音声と同期するフェイスモーションを生成できるサービスKoemotionの提供を開始いたします。

■ Koemotionの概要

Koemotionは、サービス名に含まれている「コエ」「エモーション」「モーション」を扱う生成AIサービスです。Koemotionサービスを構成する音声合成には2023年3月に先行公開したKoeiromapが組み込まれており、従来の音声合成製品のように事前に用意された特定の話者の音声を合成するのではなく、2次元空間(マップ)から任意の座標を選択することで話者の声色を多種多様に変更して音声を合成することができます。

Koemotion_pageKoemotion_page

Koeiromapでは、座標で指定された全ての話者の声色に7種類の感情を乗せて合成することができ、様々な組み合わせを実現します。また、入力されたテキストに込められた感情を推定する機能もあり、感情に合わせた発話スタイルで読み上げます。

Koemotionは、Koeiromapで合成した音声と同期したフェイスモーションを生成し、2D・3Dモデルや画像生成AIと組み合わせることでキャラクターの表情を音声に合わせて動かせることができるサービスです。ブラウザ上のユーザーインターフェースまたはAPIのご利用が可能で、個人・法人向けに利用目的に合わせたサービスプランを用意しています。

・製品紹介ページ:https://rinna.co.jp/products/business/koemotion/

・サービスURL:https://koemotion.rinna.co.jp

■ Koemotionの特長

・Koemotionでは、入力したテキストの感情予測・音声の合成・フェイスモーションの生成ができます。

・音声合成を担うKoeiromapは106話者から収録した約110時間の音声を用いて、話者の声色を表現する2次元の空間が学習されています。この2次元空間から任意の座標を選択することで、106話者の中間的な話者の声色も合成することができます。

・ブラウザ上で動作する2次元マップのユーザーインターフェースを採用したKoeiromapでは、好きな声を見つける楽しみを体験できます。

・Koeiromapでは全ての話者の声色で通常・喜び・悲しみ・怒り・恐れ・驚き・囁きの7種類の音声を合成します。また、Koemotionのプランでは、入力テキストから感情を予測することもできます。

・KoemotionではKoeiromapで合成された音声に合わせたフェイス(顔)のキーポイントを3次元座標のモーションとして生成します。この座標情報を用いることで、2D・3Dモデルのキャラクターの表情を音声と同期させて動かすことができます。

 

■利用シーン

Koemotionの音声合成機能Koeiromapを単体でご利用いただくと、従来の音声合成サービスと同様に、アナウンスや電話での音声応答などに活用できます。Koeiromapは2次元マップから様々な話者の声色を選択して音声を合成できる特徴から、多くのキャラクターが登場する小説のオーディオブック化や動画制作にも展開可能です。自作キャラクターの音声として既存のキャラクター性を持った音声合成システムを利用する場合には、同じ声色の音声になってしまうことや権利の課題がありますが、Koeiromapでは、それらの課題解決だけでなく個性を反映できる音声を選択できます。

音声合成とフェイスモーション生成を組み合わせたKoemotion APIは幅広い用途に合わせたシステムへの組み込みが可能で、たとえばゲームのNPCのフルボイス化、リアルタイム音声対話システム、AITuberの配信などのシーンで利用できます。

Koemotionの活用例として、rinnaでは2023年5月からAIキャラクターSNS『キャラる』に音声合成機能Koeiromap APIを導入し、既に140万リクエストを超える好評をいただいています。

【ロンチパートナーのコメント】

Koemotion正式リリースのロンチパートナーとしてピクシブ株式会社様と新潟コンピュータ専門学校様への導入が決まっています。

■ピクシブ株式会社 新規事業部 シニアマネージャー 古賀和樹様

ブラウザで自分の3Dキャラクターとフルボイスで会話できる技術デモ「ChatVRM」をオープンソースで公開するにあたり、Koemotion API(旧Koeiro API)を利用させていただきました。

ChatVRMの特徴は「自分の好きなキャラクターとおしゃべりできる」という点です。WEBブラウザ上で任意の3Dキャラクターをインポートして使用することができるため、それぞれのキャラクターに合わせた、細やかな声の調整を可能にする必要がありました。ChatVRMにおける、3Dキャラクターとのテキスト・音声での会話部分の実装は4つの技術によって実現されています。そのうち、「読み上げ音声の生成」を担っているのがKoemotion APIです。決まった選択肢から声を選ぶのではなく、オリジナルキャラクターに合った声を試行錯誤できるという点がChatVRMの要件に適しており、導入のしやすさの観点からも高い実用性を感じました。Koemotion APIの利用によって声色を自由に調整できるようになり、ユーザーがキャラクターに合わせた自分好みの声を作ることができるようになりました。キャラクターに合わせた声を探すのが楽しいとのフィードバックもいただきました。

ChatVRM:https://pixiv.github.io/ChatVRM/

■学校法人 国際総合学園 新潟コンピュータ専門学校 教務部長 山中裕介様

新潟コンピュータ専門学校では2017年からAIを学ぶと共に、AIの新たな活用として、自由対話型AIキャラクターの開発を模索していました。その中で文字を音声に変換する既存のアプリケーションでは、無個性で無機質な印象が強いことを課題に思っており、より感情移入できるキャラクターの声が必要と感じていました。そのようなAIキャラクター開発に向けサポート、教育提携してくれる企業を探していたところrinnaに出会いました。rinnaの提供するKoeiromapは、XY軸で音声を生成&調整でき、視覚的に分かり易く直感的に操作できる点が素晴らしいと思いました。オリジナルキャラクターの設定や雰囲気に合わせた声色や表情など感情表現ができる事も魅力です。Enterprise版では様々な追加機能があり、カスタマイズしていける点も導入の決め手となりました。今後の期待として、当校のオリジナルキャラクター、「笑主(えぬし)しぃ」がrinna APIとKoeiromapを活用する事で、既存の音声変換ソフトでは表現できない感情豊かな音声でコミュニケーションできる事を楽しみにしています。授業やオープンキャンパスで愛される、オリジナルAIキャラクターとして活躍してくれることを期待しています。りんなちゃんと連携した取り組みもできたら嬉しいです。

笑主しぃYouTubeチャンネル:https://www.youtube.com/@Niigata-C-Channel

■ 今後の展開

AIの技術は日々進歩しており、生成AIの品質は向上していくと考えられます。Koemotionでは、最新のAI技術の導入を続け、話者や感情を自由自在にコントロールできる音声合成の開発を行います。さらに、フェイスモーションだけでなくボディモーションの生成や、画像生成AIを用いたレンダリングとの統合を検討します。今後もクリエイターによるキャラクターづくりを支援するとともに、多様なクリエイティブコンテンツをよりリッチなものにできるような技術提供を続け、rinnaの目指す「人とAIの共創世界」の実現に向けて取り組んでいきます。

Koemotionに関する最新情報は公式Twitterで発信してまいります。

Koemotion 公式 Twitter: https://twitter.com/rinna_koemotion

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げた AI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

<公式サイト>https://rinna.co.jp/

タイトルとURLをコピーしました