Nishikaが独自に作成した日本語個人情報抽出向けデータセットを無償公開

この記事は約6分で読めます。
AIコンサルティング・開発サービスを提供するNishika株式会社(東京都港区、代表取締役山下達朗、以下Nishika)は、2022年8月1日より文章の中から氏名や組織名、地名などの個人情報を機械学習により自動で抽出するためのデータセット・高精度AIモデル(学習済みモデル)・ソースコードの提供を開始しました。希望者は下記のフォームから申請することによりダウンロードが可能になります。
https://info.nishika.com/solution-cl-data/personal-inquiry
公開期間は2022年10月31日までの期間限定となります。

個人情報に相当する文言のアノテーション画像

Nishikaは2021年1月に判例文の中から、個人情報に相当する文言を、人名・組織名・地名などの種類別に抽出することを目的としたAI開発コンペティション「判例の個人情報の自動マスキング※」を開催しました。同コンペティションでは個人情報の抽出精度を200名以上の参加者が競い合い、最終的に1位となったAIモデルは人名では91.4%、組織名・施設名は81.4%の高精度での個人情報抽出を実現しました。
※ https://www.nishika.com/competitions/7/summary

Nishikaは同コンペで用いた個人情報抽出向けデータセットに加え、コンペで優勝した学習済みモデルおよびそのソースコードをいずれも商用利用が可能な形で公開することに致しました。

適切な個人情報管理の重要性は年々増しており、様々な文章の中から個人情報の有無を把握することや、個人情報を文章の中から正確に抽出することが必要とされる場面が増えています。このようなタスクにはAI・機械学習の活用による作業の効率化が適しています。一方で、個人情報などの固有表現抽出(自然言語処理で、事前に定義されたカテゴリの表現を抽出するタスクのこと)を行うAI開発のために一般に利用できるデータセットは限られています。弊社の知る限り、このようなデータセットは、日本語だけではなく世界的に見てもこれまで公開事例が無いかと思います。

このような背景を受け、日本語における自然言語処理技術のさらなる発展のために実際にコンペティションで用いた日本語個人情報抽出向けデータセット、優勝モデルおよびそのソースコードを広く公開することにしました。学術領域に限らず民間における研究・プロダクト開発にも広く利用されることを期待しています。Nishikaは今後も日本のAI技術開発やデータサイエンスコミュニティの発展に寄与していくために、様々な活動を続けていく所存です。

【日本語個人情報抽出向けデータセットについて】

  • 約200の判例文に27,000超の個人情報(人名、組織名・施設名・役職名、地名、時間、その他商品名等)へのラベルが付与された独自データセット
  • データは、Nishikaにて収集した判例文のpdfデータをテキスト化し、クレンジング後にテキストアノテーションツールdoccanoを用いて原文のマスキング箇所に対してアノテーションを行った後、架空の名称でアノテーション箇所を置換することにより作成
  • アノテーションは、人名: PERSON、組織名・施設名・役職名: ORGFACPOS、地名: LOCATION、時間: TIMEX、その他: MISCの5種類。ラベル付の考え方は関根の拡張固有表現階層(v7.1.1)を参考
  • データの判例文内に記載されている個人情報は全て架空のものだが、万が一実在の人物の氏名や組織等の名称と同一のものがあった場合でも、当該の人物・組織と本データ内の記載内容とは無関係

【AIモデル・ソースコードについて】

  • Nishikaが過去に開催した判例文の中で、個人情報に相当する文言を、人名・組織名・地名などの種類別に抽出する精度を競うコンペティションにて、1位を獲得したモデル
  • 個人情報の抽出を91.4%の精度で抽出可能であり、特に人名は94.5%、組織名・施設名は81.4%の高精度で抽出可能 ※評価指標はF1値のマイクロ平均
  • モデルは、大規模言語モデルBERTをベースにした6種類の学習済みモデルを用いてアンサンブルしたもの

【申請フォームURL】
https://info.nishika.com/solution-cl-data/personal-inquiry

【公開期間】
2022年8月1日から2022年10月31日

【データセット作成の流れ】

【Nishikaについて】
 

2019年5月に設立。国内最大級のAI人材コミュニティ「Nishika」を運営している。 

  • URL :https://info.nishika.com/
  • 所在地 : 東京都港区芝浦3-7-8-202
  • 代表者 : 代表取締役CEO 山下達朗、代表取締役CTO 松田裕之
  • 事業内容:AIに関するコンサルティング・受託開発、データ分析コンペティションによるAI開発、AI・データ分析人材特化型求人サービス、データ分析コンペ研修サービス

 【NishikaによるAI開発について】

NishikaによるAI開発は、データ分析コンペティションによる開発、Nishikaによる開発の2つの手法を提供しており、お客様のニーズに基づきより適切な手法をご提案しています。

データ分析コンペティションは、数百人のデータサイエンティストがAIモデルの精度を競い合いより高い精度のAIモデルを開発する仕組みで、特定ベンダーに委託開発するよりも競争原理を活用し高い精度のAIモデルが開発できるため、米国・中国等においてAI開発の新たな手法として普及しています。

主な用途には、リコメンドエンジンの開発、不適切コメントの自動検知、異常検知や異物画像検知、需要予測、株価や不動産などの将来価格予測、解約ユーザーの早期検出など、非常に幅広く活用されています。

また、国内最大級のAI人材コミュニティを活かし、各領域の専門家と連携した課題解決の実績があることから、領域を選ばずAI・DXの課題解決に際して幅広く価値を提供できる相談パートナーとして役立つと自負しております。

【本リリースに関するお問合せ先】
Nishika株式会社 担当 : 松田
E-mail:info@nishika.com

タイトルとURLをコピーしました