NDLOCR ver.2の公開について

2023年07月12日

NDLラボ公式GitHubから、OCR処理プログラム「NDLOCR」のver.2を公開しました。

NDLOCRは、国立国会図書館(以下「当館」といいます。)がデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。

令和4年4月に公開したver.1が全文検索用途を主目的に開発したもの(令和3年度OCR処理プログラム開発事業参照)であるのに対して、ver.2では、視覚障害者等の読み上げ用途にも利用できるよう、機能の追加及び認識性能の改善を行っています。

ver.1からの追加機能として、①出力テキストデータの読み上げ順序の推定機能、②漢字の読み方の付与機能、③読み上げ上不要な要素(柱・ノンブル)の除去機能、④広告領域内の文字の読み取り機能を有しています。

合わせて、当館が今後デジタル化及びテキスト化をする資料の出版年代を考慮し、特に1960年代以降の図書・雑誌資料に対する文字認識性能の改善も図りました。

ver.2には、令和4年度に当館が外部委託して開発したver.2.0と、さらに令和5年4月~6月に当館が改善作業を実施したver.2.1があります。ver.2.1はver.2.0に対し、1960年代より前に刊行された資料の文字認識性能を向上させるための改善を行うとともに、広告領域内を読み取った文字の出力方法の改善を実施しています。


NDLOCR ver.2の開発に関する概要については、次をご参照ください。

NDLOCR ver.2は、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細は各プログラムのREADMEをご参照ください。

なお、これまで提供していたNDLOCR ver.1については、同リポジトリのver.1ブランチから提供を継続します。