LINE、昭和前期以前の資料にも対応するOCRモデルを開発。国立国会図書館のデジタル化資料247万点のテキストデータ化を完了

この記事は約6分で読めます。
LINE株式会社 AIカンパニー(本社:東京都新宿区、カンパニーCEO:砂金 信一郎)は、国立国会図書館(東京都千代田区)が保有するデジタル化資料247万点、2億2300万画像を対象とした「デジタル化資料のOCRテキスト化」作業を受託し、同プロジェクトにおいて、「CLOVA OCR」の技術によるモデル開発を実施、全文のテキストデータ化が完了しましたことを、お知らせいたします。

「CLOVA OCR」は、書類・画像に記載された文字等の情報をテキストデータへ変換するサービスです。
OCRモデルの研究・開発経験豊富なチームが、日々ユーザーニーズに寄り添いながら製品改善を重ねており、その認識精度は国際的にも高い評価を得ています。文書解析と認識に関する国際会議ICDARでは、横書きや縦書きだけでなく、丸く湾曲して書かれた文字や傾いた文字などの悪条件下での読み取り、多言語の認識、専門用語の認識などで高い精度と評価され、4分野にて世界No.1を獲得しました(2019/3/29時点)。

今回テキストデータ化を行ったデジタル化資料の多くは昭和前期以前の資料であり、レイアウトも複雑なため、既存のOCRでは同プロジェクトに必要な精度に達しないことや、2億2300万枚を超えるデジタル化資料の処理に時間を要する点が課題でした。
そのような中、当社のAI-OCRモデル研究開発チームにおいて、「CLOVA OCR」の技術(以下、ベースラインモデル)を元に、本プロジェクト用のOCRモデル開発を実施いたしました。
・「CLOVA OCR」採用発表時プレスリリース
 https://linecorp.com/ja/pr/news/ja/2021/3825

ベースラインモデルは現代の書籍や文章、言葉・記号の用法に最適化されているモデルのため、今回のモデル開発において文字サイズや字間・行間が不揃いな書籍や、本文と非本文(ルビ等)、書籍内のインク汚れや透けて見えている文字、右読みの文章など、昭和前期以前の資料特有の点についてチューニングを行いました。
 

 

 

 <改善結果報告書より一部抜粋> <改善結果報告書より一部抜粋>

結果として、全33区分中、1970年代に出版された雑誌資料を除く32区分で国立国会図書館の目標値よりも高い認識性能を発揮するモデルが完成、全文テキストデータ化に寄与しました。
改善結果や本プロジェクト結果の詳細については、国立国会図書館がNDLラボで公開しています。

・『改善結果報告書』 ※PDFファイル
  https://lab.ndl.go.jp/dataset/r3ocrproject/ocrtext/ocrtext_web.pdf
・『令和3年度デジタル化資料のOCRテキスト化』詳細
  https://lab.ndl.go.jp/data_set/ocr/r3_line/

LINEでは、AI技術やサービスを通して、生活やビジネスに潜む煩わしさを解消すること、社会機能や生活の質を向上させることで、より便利で豊かな世界をもたらすことを目指しています。「ひとにやさしいAI」が自然なカタチで生活やビジネスの一部となるような、「これからのあたりまえ」を創出するべく、引き続きAI技術のさらなる向上や、ビジネス連携を進めてまいります。
 

  • CLOVA OCRについて

https://clova.line.me/clova-ocr/
「CLOVA OCR」は、書類・画像に記載された文字等の情報をテキストデータへ変換するサービスです。
読み取り項目を設定可能な「定型」、特定の様式に特化し事前学習済みの「特化型」、フォーマットが決まっていない書類をテキストデータ化する「非定型」、の3つのサービスタイプから、用途に合った最適なAI-OCRをご利用いただけます。
その認識精度は、横書きや縦書きだけでなく、丸く湾曲して書かれた文字や傾いた文字などの悪条件下での読み取り、多言語の認識、専門用語の認識などで高い精度と評価されました。文書解析と認識に関する国際会議ICDARでは4分野にて世界No.1を獲得しました(2019/3/29時点)。OCRモデルの研究・開発経験豊富なチームが、日々ユーザーニーズに寄り添いながら製品改善を重ねています。
 

  • LINE CLOVAについて

https://clova.line.me/
社会に技術とサービスを提供するLINEのAIテクノロジーブランドです。LINEが提供する、文字認識、画像認識、動画解析、音声合成、音声認識といったAI技術やサービスを通して、生活やビジネスに潜む煩わしさを解消すること、社会機能や生活の質を向上させることで、より便利で豊かな世界をもたらすことを目指しています。AI技術が、人に寄り添い、人をサポートし、人の負担を減らす。「ひとにやさしいAI」は、自然なカタチで生活やビジネスの一部となるような、「これからのあたりまえ」を創出します。
 

  • 国立国会図書館『令和3年度デジタル化資料のOCRテキスト化』成果物について

本プロジェクトの成果物は、国立国会図書館より、現在、次の形で提供されています。

1. OCRテキスト化事業の対応字種データ ※テキストファイル
OCRテキスト化事業によって入手したOCRテキストデータの対応字種(23,026文字種)を一覧化した資料(UTF-8)です。
https://lab.ndl.go.jp/dataset/r3ocrproject/ocrtext/characterlist.txt

2. 性能改善作業の一環で作成したOCR学習用データセット(著作権保護期間満了分)
OCR学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットを公開しています。
https://github.com/ndl-lab/pdmocrdataset-part1

3. 次世代デジタルライブラリー(著作権保護期間満了分)
OCRテキストデータのうち、著作権保護期間の満了した資料(図書のみ)28万点から作成したテキストデータを利用した、全文テキスト検索機能及び全文テキストダウンロード機能を提供している実験サービスです。
https://lab.ndl.go.jp/dl/

4. NDL Ngram Viewer(著作権保護期間満了分)
OCRテキストデータのうち、著作権保護期間の満了した資料(図書のみ)28万点から作成したテキストデータに対して、出版年代ごとの出現頻度を可視化・列挙することができる実験サービスです。
https://lab.ndl.go.jp/ngramviewer/

タイトルとURLをコピーしました