パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発

この記事は約4分で読めます。

パナソニック ホールディングス株式会社(以下、パナソニックHD)は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)タスクを遂行できる画像認識向けマルチモーダル基盤モデルをカリフォルニア大学バークレー校と共同開発しました。本技術は、40以上の公開データセットを対象とした評価実験で、世界最高性能(*1)を達成しました。

近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されています。大規模言語モデルの事前知識を画像に取り込むにあたって、実際は異なる粒度の階層的な言語(例えば、人→顔→鼻/口/目…)が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきました(人/顔/鼻のどれか一つ、もしくは、「人 顔 鼻」と繋げただけの文字列で学習、など)。

パナソニックHDは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになりました。これにより、車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面で、現場でのアノテーションの負担削減が期待できます。

本技術は先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである37th Conference on Neural Information Processing Systems(NeurIPS 2023)に採択されました(採択率26.1%)。2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表します。

今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

*1 2023年11月21日現在(パナソニックHD調べ)

全文は以下プレスリリースをご覧ください。

▼[プレスリリース]パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発(2023年11月21日)

パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発 | 技術・研究開発 | 技術・研究開発 | プレスリリース
パナソニック ホールディングス株式会社は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーションタスクを遂行できる画像認識向け汎用基盤モデルをカリフォルニア大学バークレー校と共同開発しました。

<関連情報>

・Hierarchical Open-vocabulary Universal Image Segmentation

Hierarchical Open-vocabulary Universal Image Segmentation
Open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can...

・HIPIE:Hierarchical Open-vocabulary Universal Image Segmentation

HIPIE: Hierarchical Open-vocabulary Universal Image Segmentation
Hierarchical, Open-vocabulary, and Universal Image Segmentation.

・NeurIPS2023 公式サイト

NeurIPS 2023

・Panasonic×AI WEBサイト

Panasonic×AI | パナソニックの人工知能研究開発 - Panasonic
”実世界の幅広い事業領域において人工知能技術の研究開発・社会実装に取り組む”パナソニックグループの人工知能研究開発についてご紹介するサイトです。

・Panasonic×AI X

https://twitter.com/panasonic_ai
タイトルとURLをコピーしました