日本経済新聞社(本社:東京都千代田区、代表取締役社長:長谷部剛、以下日経)は、大学共同利用機関法人人間文化研究機構国立国語研究所(所在地:東京都立川市、所長:田窪行則、以下国語研)と共同で日本経済新聞の朝夕刊(2013年1~2月)から選択した約100本の記事を元に日本語の書き言葉コーパス「日本経済新聞記事オープンコーパス」を開発、公開を始めました。
コーパスとは、文章をセンテンスごと(一文)に分けたものを構造化し、言語情報(品詞など)を付与したもので、人工知能(AI)が日本語を理解するための学習データに使われるなど、自然言語処理技術の発展に欠かせない言語資源です。
日本経済新聞記事オープンコーパスは、コーパスデータとその元となる記事データをセットで公開します。記事データは日本経済新聞社が提供、コーパスは国語研が開発しました。研究用途に限り無償での利用が可能で、以下のURLからダウンロード可能です。コーパスの開発経緯と内容については、言語処理学会第29回年次大会で報告予定です。
日経は良質なコンテンツを公開することで、国内外のデータサイエンスの発展に貢献していきます。
ダウンロードサイト:https://nkbb.nikkei.co.jp/alternative/corpus/
■国立国語研究所について
国立国語研究所は、国語に関する総合的研究機関として、1948年に誕生しました。
2009年10月には大学共同利用機関法人人間文化研究機構国立国語研究所となり、共同研究・共同利用を中心とした活動を展開しています。
ウェブサイト:https://www.ninjal.ac.jp/