次世代デジタルライブラリーへの古典籍資料のテキストデータ投入完了及び「NDL古典籍OCR」のソースコード等の公開について

2023年01月24日

1. 次世代デジタルライブラリーへの古典籍資料テキストデータ投入完了について

2022年11月に実験サービス「次世代デジタルライブラリー」の全文検索対象を古典籍資料にも拡大し、以後順次テキストデータの投入を継続していましたが、この度、対象としていた古典籍資料約8万点(国立国会図書館デジタルコレクションでインターネット公開しているデジタル化済資料)のテキストデータ全てについて投入を完了しました。これによって、著作権保護期間が満了した古典籍及び図書資料計約35万点の全文検索が可能となりました。

次世代デジタルライブラリーの詳細については、以下のサービス案内ページをご覧ください。

2. NDL古典籍OCRのソースコード等の公開について

2022年度に当館が実施した「古典籍資料のOCRテキスト化実験」において、当館が所蔵するデジタル化済みの古典籍資料のテキスト化のために次世代室が開発した「NDL古典籍OCR」のソースコード及び開発に使用したデータセットを公開しました。

(1) ソースコード

NDL古典籍OCR: https://github.com/ndl-lab/ndlkotenocr_cli

くずし字、変体仮名等に対応した、古典籍資料のテキスト化のためのOCR処理プログラムのソースコードです(利用条件:CC BY 4.0)。

(2) データセット

OCR学習用データセット(みんなで翻刻): https://github.com/ndl-lab/ndl-minhon-ocrdataset

NDL古典籍OCRの開発に使用したデータセットのうち、クラウドソーシングによる翻刻プロジェクト「みんなで翻刻」の成果物であるテキストデータを機械学習用に加工したデータセットを公開します(利用条件:CC BY-SA4.0)。