FRONTEO、自社開発AIエンジンKIBITにおいてアンサンブル学習と性能予測を両立するアルゴリズムを開発

この記事は約5分で読めます。
 株式会社FRONTEO(本社:東京都港区、代表取締役社長:守本 正宏、以下 FRONTEO)は、自社開発したAIエンジン「KIBIT(読み:キビット)」について、デジタルフォレンジックにおける証拠に関連する文書と関連しない文書を分類する性能を予測するアルゴリズムを改善し、計算コストや使用電力量を増すことなく、予測機能を作り出すことに成功したことをお知らせします。また、この改善を能動学習のワークフローと組み合わせることで、人による文書レビューのコストに換算し、これまで積み重ねてきた性能改善に加えてさらに最大20%の削減に相当する分類性能の向上を同時に実現しました。
 企業が管理するデータ量は年々増加の一途をたどっており、デジタルフォレンジック(デジタルデバイスに記録された情報を対象とする情報保全・分析調査)においては、証拠保持者(カストディアン)1人当たり数TBに及ぶこともあるデータを収集し、膨大な文書の中から限られた期間内で証拠に関連する文書を発見しなければなりません。調査に関わる弁護士にとって、時間、調査品質、コストが大きな課題となります。その中でも、関連情報を発見するプロセスである文書レビューは、時間とコストの約7割を占めると言われ、AIの活用が欠かせません。KIBITは、リーガルテック領域において既に米国や日本で運用が進んでおり、レビューに関する文書量の大幅な削減と時間の短縮を実現しています。

 FRONTEOはこの度、機械学習モデルの性能予測に信頼ある交差検証法を、Illumination Forest*1が持つアンサンブル学習の構造に転用した独自アルゴリズムを新たに作り出しました。交差検証法は、検証する回数に応じて計算コストが増すという弱点があります。しかし、今回の改善では、計算時間、マシンパワーや使用電力量を増すことなく、学習のたびに高精度なAIモデルの性能予測がユーザーに提供されます。高速かつ高精度な自動性能予測は、デジタルフォレンジックにおいて重要となる計画的なレビューオペレーションを可能にし、特に、継続的能動学習 (Continuous Active Learning) と呼ばれるAIと人との協同学習に威力を発揮します。

 さらに、FRONTEOのテストデータを用い、本アルゴリズムをワークフローの改善と組み合わせた試験では、図1に示すように、従来と比べRecall Rate*2 を大幅に改善し、証拠として関連する文書の80%を見つけるのに必要なレビュー文書数のさらに最大20%の削減と、必要レビュー文書数の最高2%以内のMargin of Error*3 でのレビュー前の予測を同時に実現しました。

 FRONTEOは、日本におけるデジタルフォレンジックとディスカバリ(米国の民事訴訟制度における証拠開示手続き)のパイオニアとして、今後も不正調査や訴訟支援の効率化に役立つソリューションの開発と改良、環境負荷低減に配慮した高性能なmicroAI*4 の実現に努めてまいります。

 

図1. 改善前(予測機能なし)と改善後(予測機能あり且つ高精度)の比較。AIなし(ランダムサンプリング)によるレビューと比較し、改善前も高い分類性能を示していましたが、改善後はさらに高い分類性能と高精度な予測機能を実現しています。なお、図の視認性を上げるため、横軸の最大値は40%に拡大しています。

*1 Illumination Forest:ランダムフォレストとニューラルネットワークをベースとしたFROTNEO独自のアルゴリズム。証拠として関連する文書の含まれる割合(リッチネス)の高い文書レビュー向けに設計され、今後もより多くの案件への適用を見込んでいます。
*2 Recall Rate:再現率。証拠として関連性のあるすべてのデータの中で、関連性があることが正しく予測されたデータの割合。
*3  Margin of Error:教師データがランダムにサンプリングされることにより不可避に発生する標準偏差。
*4 microAI:FRONTEOの提唱するAIコンセプト。大規模計算を用いず、少ない使用電力(計算コスト)と少量の教師データで、高い性能を発揮します。

■KIBITについて URL: https://www.fronteo.com/products/kibit/
「KIBIT」は、専門家や業務熟練者が備える“暗黙知”を再現する独自の機械学習アルゴリズムを用い、キーワードに頼らずテキストを解析する人工知能です。少量の教師データで短時間での高精度な解析が可能です。

■FRONTEOについて URL: https://www.fronteo.com/
FRONTEOは、自然言語処理に特化した自社開発AIエンジン「KIBIT(読み:キビット)」と「Concept Encoder(商標:conceptencoder、読み:コンセプトエンコーダー)」、「Looca Cross(読み:ルーカクロス)」を用いて膨大な量のテキストデータの中から意味のある重要な情報を抽出し、企業のビジネスを支援する、データ解析企業です。2003年8月の創業以来、企業の国際訴訟を支援する「eディスカバリ(電子証拠開示)」や「デジタルフォレンジック調査」などのリーガルテック事業をメインに、日本、米国、韓国、台湾とグローバルに事業を展開してきました。同事業で培ったAI技術をもとに、2014年よりライフサイエンス分野、ビジネスインテリジェンス分野、経済安全保障へと事業のフィールドを拡大し、AIを用いて「テキストデータを知見に変える」ことで、創薬支援、認知症診断支援、金融・人事・営業支援など、様々な企業の課題解決に貢献しています。2007年6月26日東証マザーズ(現:東証グロース)上場。2021年1月第一種医療機器製造販売業許可を取得(許可番号:13B1X10350)、同9月管理医療機器販売業を届出(届出番号:3港み生機器第120号)。資本金3,034,846千円(2022年3月31日現在)。

 ※FRONTEO、KIBIT、conceptencoder、Looca CrossはFRONTEOの日本における登録商標です。

タイトルとURLをコピーしました