NDLOCR-Liteの公開について

2026年02月24日

NDLOCR-Liteの公開について

NDLラボ公式GitHub(外部サイト)から、NDLOCR-Liteを公開しました。

NDLOCR-Liteは、NDLOCRの軽量版を目指して開発したOCRであり、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、図書や雑誌といった資料のデジタル化画像からテキストデータが作成できるOCRです。

GPU(Graphics Processing Unit。画像描画等の高度な並列計算を処理する装置。)を必要とせず、軽量なOCR処理が可能です。

また、NDLOCRが不得意としていた英文や手書き文字等についても実験的に対応しています。

OCR結果を示した画像

画像の出典:芥川竜之介 著『傀儡師』,新潮社,1919. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/1904835/1/53 (参照 2026-02-18)

OCR結果を示した画像

画像の出典:国立国会図書館総務部総務課 編『国立国会図書館年報』昭和29年度,国立国会図書館,1955. 国立国会図書館デジタルコレクション https://dl.ndl.go.jp/pid/3048009/1/16 (参照 2026-02-18)

NDLOCR-Lite

これまで国立国会図書館が公開していたNDLOCR(外部サイト)では、実行環境にGPUを必須としていましたが、「NDLOCR-Lite」ではGPUは不要となっています。

あわせて、デスクトップアプリケーションを用意しているため、マウス操作のみで簡単にお使いいただけます。

Windows(Windows 11)、Mac(macOS Sequoia)及びLinux(Ubuntu 22.04)の各OS環境において動作を確認しています。

次のURLからご利用のOSに合わせた最新版をダウンロードしてお使いください。

https://github.com/ndl-lab/ndlocr-lite/releases

使い方については次のページをご覧ください。

NDLOCR-Liteの使い方

NDLOCR-Liteは、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細はGitHubのREADMEをご参照ください。

なお、これまで提供していたGPUを必要とするNDLOCRについても、引き続き同リポジトリ(https://github.com/ndl-lab/ndlocr_cli )からご利用いただけます。

(留意点)

くずし字や漢籍の資料も読み取れる場合がありますが、これらの資料に対して本格的なテキスト化を行う場合は、より読み取り精度の高いNDL古典籍OCRやNDL古典籍OCR-Liteをご利用いただくことを推奨します。