NDL Ngram Viewerの対象範囲の拡大及びソースコード・データセットの追加公開について
1. NDL Ngram Viewerの対象範囲の拡大について
2022年5月に公開した実験サービス「NDL Ngram Viewer 」について、この度大幅に対象資料の範囲を拡大しました。 NDL Ngram Viewerは、全文テキストデータに含まれる単語・フレーズについて、キーワード指定や正規表現を用いた列挙により、出版年代ごとの出現頻度の比較が可能な実験サービスです。
令和3年度に実施したデジタル化資料のOCRテキスト化事業で作成したOCRテキストデータのうち、これまでは著作権保護期間が満了した図書資料約28万点を対象としていました(NDL Ngram Viewer (Version 1))が、今回の対象範囲の拡大によって、著作権保護期間内の図書資料約69万点及び雑誌資料約132万点が、新たに追加されました(NDL Ngram Viewer (Version 2))。これにより、対象範囲の資料は230万点になり、単語・フレーズは、従来の約8.3億語から約17億語へ拡大しました。
対象範囲の出版年代ごとの詳細も含め、詳しくは以下のサービス案内ページをご覧ください。
2. ソースコード・データセットの追加公開について
この度対象範囲を拡大したNDL Ngram Viewerのソースコードとデータセットを公開しました。
これらを組み合わせることで自由にngram viewerを構築することができます。
(1) ソースコード
本日から公開しているNDL Ngram Viewerのソースコード(Version 2, 2023年1月時点)です。利用条件はCC BY 4.0ライセンスです。
URL: https://github.com/ndl-lab/ndlngramviewer_v2
(2) データセット
キーワードの頻度統計情報をまとめたデータセットです。既公開分の著作権保護期間が満了した図書資料約28万点に追加する形で、図書資料約97万点及び雑誌資料約132万点から作成した同様のデータセットを公開しました。
利用条件はPDM(パブリックドメインマーク)です。