OCR処理プログラム及び学習用データセットの公開について

2022年04月25日

NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。

NDLOCR
国立国会図書館（以下、「当館」とします。）が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。
このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。
機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。
- リポジトリ : https://github.com/ndl-lab/ndlocr_cli
パブリックドメインOCR学習用データセット（令和3年度OCRテキスト化事業分）
当館が令和3年度にLINE株式会社に委託して実施したデジタル化資料のOCRテキスト化事業において、OCRモデルの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットです。2022年4月末現在、2,713画像分を公開しています。
- リポジトリ : https://github.com/ndl-lab/pdmocrdataset-part1

※令和3年度のOCR事業の概要については、次をご参照ください。