PKSHAの画像認識技術「gSwin」 が ICASSP 2023 に採択

　株式会社PKSHA Technology（本社：東京都文京区、代表取締役：上野山勝也、以下PKSHA）は、同社の画像認識技術「gSwin」に関する論文が、信号処理技術や音声処理技術を中心に幅広い分野を扱う世界最大規模の国際学術会議の一つ「ICASSP」に採択されたことをお知らせいたします。PKSHAは「未来のソフトウエアを形にする」というミッションの下、画像認識や音声言語処理等独自の技術を基盤にしたソフトウエアの社会実装を通じ、日本の経済活動の新たな形の実現を目指しています。

論文採択の概要

　「ICASSP (International Conference on Acoustics, Speech, and Signal Processing)」はIEEE (米国電気電子学会) Signal Processing Society (信号処理ソサイエティ) によって開催されている、信号処理技術や音声処理技術を中心に幅広い分野を扱う国際学術会議で、同ソサイエティの旗艦会議に位置づけられています。
　PKSHAのR&D部門において、音声認識、自然言語処理、画像処理等、様々な技術の研究・開発を進める中で、画像認識技術の高度化に関わる研究に以前より取組んでいました。
　本論文では、画像認識を行う特定のモデルの計算の効率化を実現する新技術を提案、採択された論文は2023年6月4日から10日にかけてギリシャで開催される「ICASSP 2023」にて発表されます。PKSHAとしては、2018、2020、2021に次いで今回で4回目の発表となります。

採択された論文について

「gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted Window」
Mocho Go, Hideyuki Tachibana
「gSwin: シフトウィンドウ階層構造を持つゲート付きMLPビジョンモデル」
呉孟超、橘秀幸
https://arxiv.org/abs/2208.11718

　gSwinは、現在最も高性能なビジョンモデルの1つとされているSwin TransformerとニューラルネットワークアーキテクチャのgMLPを組み合わせたモデルです。画像認識技術において、高い精度を保ちながら効率的に処理を行う事が重要とされていますが、この新たなモデルにより、Swin Transformerよりも小さなモデルサイズで、画像分類、物体検出、セマンティックセグメンテーション等のタスクにおいて高い精度を実現します。

今後の展望

　ソフトウエアの社会実装に取組むPKSHAでは、ビジネスを展開するソリューション事業、AI SaaS事業を支える根幹として、先端技術の研究・開発に創業初期より注力をしています。
　画像認識技術はモビリティ、小売、防犯、教育等様々な領域で活用が期待されていますが、gSwinをはじめとする研究成果により、継続的にモデルの軽量化・高度化やそれに伴う導入コスト削減を実現することで、「未来のソフトウエアの社会実装」を加速してまいります。

■ICASSP 2023について
日時：2023年6月4日(日) – 2023年6月10日(土)
公式サイト：https://2023.ieeeicassp.org/

◆PKSHA Technologyについて
　「未来のソフトウエアを形にする」をミッションに、企業と顧客の未来の関係性を創るべく自社開発した機械学習／深層学習領域のアルゴリズムを用いたAIソリューションの開発・AI SaaSの提供を行っています。自然言語処理技術を用いた自動応答や、画像/動画認識、予測モデルなど多岐に渡る技術をベースにお客様の課題にあわせた解決策を提供する他、共通課題を解決するAI SaaSの展開により、日本のDX推進を多面的に支援し、人とソフトウエアが共に進化する豊かな社会を目指します。
会社名：株式会社PKSHA Technology
所在地：東京都文京区本郷 2-35-10 本郷瀬川ビル 4F
代表者：代表取締役上野山勝也
URL： https://www.pkshatech.com/

【本件に関する報道関係者からのお問い合わせ先】
株式会社PKSHA Technology広報担当
電話：03-6801-6718　メールアドレス：pr@pkshatech.com