NDL Ngram Viewerの対象範囲の拡大及びソースコード・データセットの追加公開について

2023年01月10日

1. NDL Ngram Viewerの対象範囲の拡大について

2022年5月に公開した実験サービス「NDL Ngram Viewer 」について、この度大幅に対象資料の範囲を拡大しました。 NDL Ngram Viewerは、全文テキストデータに含まれる単語・フレーズについて、キーワード指定や正規表現を用いた列挙により、出版年代ごとの出現頻度の比較が可能な実験サービスです。

令和3年度に実施したデジタル化資料のOCRテキスト化事業で作成したOCRテキストデータのうち、これまでは著作権保護期間が満了した図書資料約28万点を対象としていました(NDL Ngram Viewer (Version 1))が、今回の対象範囲の拡大によって、著作権保護期間内の図書資料約69万点及び雑誌資料約132万点が、新たに追加されました(NDL Ngram Viewer (Version 2))。これにより、対象範囲の資料は230万点になり、単語・フレーズは、従来の約8.3億語から約17億語へ拡大しました。

対象範囲の出版年代ごとの詳細も含め、詳しくは以下のサービス案内ページをご覧ください。

2. ソースコード・データセットの追加公開について

この度対象範囲を拡大したNDL Ngram Viewerのソースコードとデータセットを公開しました。

これらを組み合わせることで自由にngram viewerを構築することができます。

(1) ソースコード

本日から公開しているNDL Ngram Viewerのソースコード(Version 2, 2023年1月時点)です。利用条件はCC BY 4.0ライセンスです。

URL: https://github.com/ndl-lab/ndlngramviewer_v2

(2) データセット

キーワードの頻度統計情報をまとめたデータセットです。既公開分の著作権保護期間が満了した図書資料約28万点に追加する形で、図書資料約97万点及び雑誌資料約132万点から作成した同様のデータセットを公開しました。

利用条件はPDM(パブリックドメインマーク)です。

URL: https://github.com/ndl-lab/ndlngramdata