NDL Ngram Viewerのソースコードとngramのデータセットを公開しました

2022年12月09日

2022年5月にNDLラボの実験サービスとして公開したNDL Ngram Viewer のソースコードとデータセットを公開しました。

これらを組み合わせることで自由にngram viewerを構築することができます。

(1) ソースコード

NDL Ngram Viewerのソースコード(Version 1,2022年12月時点)です。利用条件はCC BY 4.0ライセンスです。

URL: https://github.com/ndl-lab/ndlngramviewer_v1

(2) データセット

令和3年度に実施したデジタル化資料のOCRテキスト化事業で作成したOCRテキストデータのうち、著作権保護期間が満了した図書資料約28万点について、 キーワードの頻度統計情報をまとめたデータセットです。利用条件はPDM(パブリックドメインマーク)です。

URL: https://github.com/ndl-lab/ndlngramdata