NDL古典籍OCR ver.3の公開及び次世代デジタルライブラリー搭載古典籍資料のテキストデータの差替えについて
2024年02月07日
1. NDL古典籍OCR ver.3のソースコード等の公開について
NDLラボ公式GitHub(外部サイト)から、NDL古典籍OCR ver.3を公開しました。
NDL古典籍OCRは、古典籍資料のデジタル化画像から全文テキストデータを作成する目的で、国立国会図書館が実験的に開発しているプログラムです。
令和5年8月に公開したver.2と比べて、漢籍資料のレイアウト認識性能が改善しています。開発に利用したデータセットについても公開しました。
(1) NDL古典籍OCR ver.3
- GitHubリポジトリ(https://github.com/ndl-lab/ndlkotenocr_cli )
NDL古典籍OCRは、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細はGitHubリポジトリのREADMEをご参照ください。
なお、これまで提供していたver.1及びver.2については、同リポジトリのver.1及びver.2ブランチから提供を継続しています。
(2) OCR学習用データセット(みんなで翻刻)
- GitHubリポジトリ(https://github.com/ndl-lab/ndl-minhon-ocrdataset )
令和6年2月現在、ver.1の学習に利用したデータセット(ndl-minhon-ocrdataset.zip)に加えて、ver.2及びver.3の学習に利用したデータセット(ndl-minhon-ocrdataset_20240207.zip)を公開しています。
2. 次世代デジタルライブラリー搭載古典籍資料のテキストデータの差替えについて
NDL古典籍OCR ver.3を利用して次世代デジタルライブラリーに搭載している古典籍資料約8万点の再テキスト化を行い、テキストデータを差し替えました。
これまで次世代デジタルライブラリーに搭載していたver.1のテキストデータと比較してテキストデータの欠損や誤認識が軽減しています。
- 次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/ )
次世代デジタルライブラリーの詳細については、以下のサービス案内ページをご覧ください。
古典籍資料のテキスト化実験に関する概要については、次をご参照ください。