NDL Ngram Viewerのソースコードとngramのデータセットを公開しました
2022年12月09日
2022年5月にNDLラボの実験サービスとして公開したNDL Ngram Viewer のソースコードとデータセットを公開しました。
これらを組み合わせることで自由にngram viewerを構築することができます。
(1) ソースコード
NDL Ngram Viewerのソースコード(Version 1,2022年12月時点)です。利用条件はCC BY 4.0ライセンスです。
URL: https://github.com/ndl-lab/ndlngramviewer_v1
(2) データセット
令和3年度に実施したデジタル化資料のOCRテキスト化事業で作成したOCRテキストデータのうち、著作権保護期間が満了した図書資料約28万点について、 キーワードの頻度統計情報をまとめたデータセットです。利用条件はPDM(パブリックドメインマーク)です。