OCR処理プログラム及び学習用データセットの公開について

2022年04月25日

NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。

  • NDLOCR
    国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。
    このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。
    機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。

  • パブリックドメインOCR学習用データセット(令和3年度OCRテキスト化事業分)
    当館が令和3年度にLINE株式会社に委託して実施したデジタル化資料のOCRテキスト化事業において、OCRモデルの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットです。2022年4月末現在、2,713画像分を公開しています。

※令和3年度のOCR事業の概要については、次をご参照ください。