パナソニック ホールディングス株式会社(以下、パナソニックHD)は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)タスクを遂行できる画像認識向けマルチモーダル基盤モデルをカリフォルニア大学バークレー校と共同開発しました。本技術は、40以上の公開データセットを対象とした評価実験で、世界最高性能(*1)を達成しました。
近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されています。大規模言語モデルの事前知識を画像に取り込むにあたって、実際は異なる粒度の階層的な言語(例えば、人→顔→鼻/口/目…)が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきました(人/顔/鼻のどれか一つ、もしくは、「人 顔 鼻」と繋げただけの文字列で学習、など)。
パナソニックHDは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになりました。これにより、車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面で、現場でのアノテーションの負担削減が期待できます。
本技術は先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである37th Conference on Neural Information Processing Systems(NeurIPS 2023)に採択されました(採択率26.1%)。2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表します。
今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
*1 2023年11月21日現在(パナソニックHD調べ)
全文は以下プレスリリースをご覧ください。
▼[プレスリリース]パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発(2023年11月21日)
<関連情報>
・Hierarchical Open-vocabulary Universal Image Segmentation
・HIPIE:Hierarchical Open-vocabulary Universal Image Segmentation
・NeurIPS2023 公式サイト
・Panasonic×AI WEBサイト
・Panasonic×AI X