パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発

パナソニックホールディングス株式会社（以下、パナソニックHD）は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション（画像中の物体を見つけ出し、画素単位で映っているものを識別すること）タスクを遂行できる画像認識向けマルチモーダル基盤モデルをカリフォルニア大学バークレー校と共同開発しました。本技術は、40以上の公開データセットを対象とした評価実験で、世界最高性能（*1）を達成しました。

近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されています。大規模言語モデルの事前知識を画像に取り込むにあたって、実際は異なる粒度の階層的な言語（例えば、人→顔→鼻／口／目…）が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきました（人／顔／鼻のどれか一つ、もしくは、「人顔鼻」と繋げただけの文字列で学習、など）。

パナソニックHDは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになりました。これにより、車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面で、現場でのアノテーションの負担削減が期待できます。

本技術は先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである37th Conference on Neural Information Processing Systems（NeurIPS 2023）に採択されました（採択率26.1％）。2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表します。

今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

*1 2023年11月21日現在（パナソニックHD調べ）

全文は以下プレスリリースをご覧ください。

▼[プレスリリース]パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発（2023年11月21日）