音響・音声・信号処理分野の世界最大の国際会議 「ICASSP 2023」にて論文採択

Fairy Devices株式会社（本社：東京都⽂京区、代表取締役藤野真⼈、以下「当社」）は、当社の研究結果を発表した論文が2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)の本会議に2本、ワークショップに1本採択されたことをお知らせします。

ICASSPは音響・音声・信号処理分野の世界最大の国際会議であり、2023年は6月4日〜10日にギリシャのロドス島で開催され、関連分野の研究者が約4,000人参加しました。

当社の発表論文について

当社では音声ユーザーインターフェースや音声対話システムの実用化のため、音声言語分野を中心に関連分野における研究開発活動を行っています。これらの研究開発の一環として、以下の3つの論文の発表を行いました。

Z. Zhu and Y. Sato, “Domain Adaptation without Catastrophic Forgetting on a Small-Scale Partially-Labeled Corpus for Speech Emotion Recognition,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023.

https://doi.org/10.1109/ICASSP49357.2023.10096578

感情音声認識の実用においては、認識したい感情クラスの定義が汎用の感情音声データセットとは異なっているため、新たな音声データセットの構築が必要となることがあります。しかしながら、このようなデータセットの構築には大きなコストがかかります。この論文は、対象ドメインにおける音声データセットが小規模であったり、一部分しか感情ラベルが付与されていない場合であっても、高い精度を達成するためのドメイン適応手法を提案したものです。

Y.Sato, N. Ikeda, and H. Takahashi, “ShuffleAugment: A Data Augmentation Method Using Time Shuffling,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023.　

https://doi.org/10.1109/ICASSP49357.2023.10096927

この論文は、音声処理のための新たなデータ拡張手法である SpecAugment を提案したものです。SpecAugmentは、ニューラルネットワークが抽出した中間表現を、対象タスクにとって重要ではない時間スケールにおいて時間方向にランダムにシャッフルするデータ拡張手法です。特に背景雑音が大きかったり、入力音声長が短いなど厳しい条件下において、モデルの頑健性を高める効果が高いことを実験的に示しました。この論文は、東京大学大学院情報理工学系研究科・高橋宏知教授との共同研究の成果に基づくものです。

Z. Zhu and Y. Sato, “Deep Investigation of Intermediate Representations in Self-supervised Learning Models for Speech Emotion Recognition,” IEEE ICASSP 2023 Workshop on Self-supervision in Audio, Speech and Beyond, 2023.

https://sites.google.com/view/icassp-sasb-2023/accepted-papers

本論文は、自己教師あり学習による事前学習済みモデルに関するより深い理解とそれに基づく応用を目指して、感情音声認識などのパラ言語タスクに利用する場合の最適なモデル構成について調査したものです。感情音声認識に必要となるパラ言語情報は自己教師あり学習モデルの中間の層に埋め込まれており、中間の1層のみを用いることで従来より高い精度が達成されることを示しました。

今後の展開について

今回発表された研究成果は当社の音声AIプラットフォームである「mimi」の高品質化や、当社の提供するさまざまな音声ソリューション事業の提供価値向上に利用されます。

今後もFairy Devicesは音声言語分野のリーディングカンパニーとして研究開発に取り組んで参ります。

「mimi®︎」について

フェアリーデバイセズ株式会社及び共同研究先等の音声技術に関する研究成果の集大成であり、機械の「耳」を実現するための音声AIサービス・製品群です。「mimi®︎」は、世界最高水準のエッジ音声AI、多言語音声認識・翻訳や音声感情認識、話者識別等を実現するクラウド音声AI、従来は音声認識が困難だった場面にも適用可能なユニークな専用ハードウェア・開発キットからなり、特に多言語対応と高騒音環境での音声認識性能に強みを持ちます。「mimi®︎」が提供するサービス・製品を最適に組み合わせることで、高い性能を持つ音声ユーザーインターフェースを様々な現場で構築することができます。

フェアリーデバイセズ株式会社について

フェアリーデバイセズ株式会社は、人類のあらゆる叡智を流通可能にするために、VUI（※a）・VPA（※b）関連技術や音声関連技術、クラウド基盤、それらの性能を活かすエッジデバイスの開発を行っています。インターネットに存在しない現場情報を機械学習が可能な形でデータ化し、学習・解析を進めることで、最先端の応用研究を実装した業務ソリューションをソフトウェアからハードウェアまで一気通貫で現場に提供しています。

（※a）VUI：Voice User Interfaceの意味

（※b）VPA：Voice Personal Assistantの意味

【会社概要】

会社名：Fairy Devices株式会社（フェアリーデバイセズ株式会社）

事業内容：人と機械をつなぐ音声テクノロジー「mimi®」、LTE搭載ウェアラブルプロダクト「LINKLET®」、現場DXの為の「Connected Worker Solution®」の開発、運営

代表者名：藤野　真人

所在地：〒113-0034　東京都文京区湯島2-31-22　湯島アーバンビル8階

ウェブサイト： https://www.fairydevices.jp/