NDL古典籍OCR ver.3の公開及び次世代デジタルライブラリー搭載古典籍資料のテキストデータの差替えについて

2024年02月07日

1. NDL古典籍OCR ver.3のソースコード等の公開について

NDLラボ公式GitHub(外部サイト)から、NDL古典籍OCR ver.3を公開しました。

NDL古典籍OCRは、古典籍資料のデジタル化画像から全文テキストデータを作成する目的で、国立国会図書館が実験的に開発しているプログラムです。

令和5年8月に公開したver.2と比べて、漢籍資料のレイアウト認識性能が改善しています。開発に利用したデータセットについても公開しました。

(1) NDL古典籍OCR ver.3

NDL古典籍OCRは、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細はGitHubリポジトリのREADMEをご参照ください。

なお、これまで提供していたver.1及びver.2については、同リポジトリのver.1及びver.2ブランチから提供を継続しています。

(2) OCR学習用データセット(みんなで翻刻)

令和6年2月現在、ver.1の学習に利用したデータセット(ndl-minhon-ocrdataset.zip)に加えて、ver.2及びver.3の学習に利用したデータセット(ndl-minhon-ocrdataset_20240207.zip)を公開しています。

2. 次世代デジタルライブラリー搭載古典籍資料のテキストデータの差替えについて

NDL古典籍OCR ver.3を利用して次世代デジタルライブラリーに搭載している古典籍資料約8万点の再テキスト化を行い、テキストデータを差し替えました。

これまで次世代デジタルライブラリーに搭載していたver.1のテキストデータと比較してテキストデータの欠損や誤認識が軽減しています。

次世代デジタルライブラリーの詳細については、以下のサービス案内ページをご覧ください。


古典籍資料のテキスト化実験に関する概要については、次をご参照ください。