NDL古典籍OCR ver.2の公開について

2023年08月08日

NDLラボ公式GitHub(外部サイト)から、「NDL古典籍OCR」のver.2を公開しました。

NDL古典籍OCRは、古典籍資料のデジタル化画像から全文テキストデータを作成する目的で、国立国会図書館が実験的に開発しているプログラムです。

令和5年1月に公開したver.1から読み順整序機能が向上したほか、文字認識性能が改善しています。

今後、ver.2を利用して、次世代デジタルライブラリーに搭載している古典籍資料の再テキスト化の処理を進めていく予定です。


古典籍資料のテキスト化に関する概要については、次をご参照ください。

NDL古典籍OCRは、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細はREADMEをご参照ください。

なお、これまで提供していたver.1については、同リポジトリのver.1ブランチから提供を継続しています。



(参考例)

『大成武鑑 4巻付1巻』から徳川家の系図を切り出した画像

『大成武鑑 4巻付1巻』[1],出雲寺万次郎,安政6. 国立国会図書館デジタルコレクション

ver.1における出力テキストデータ

御系図人皇九十六代清和天皇六代伊豫守源頼義長男源義家八幡太郎【陸奥守三男】源義家山義域義画新田足利両家祖式部大輔【長男義重】新田大炊助鎮守府将軍号大光院殿上西【四男】義季徳川四郎

ver.2における出力テキストデータ

御系圖人皇五十六代清和天皇六代伊豫守頼義長男源義家八幡太郎陸奥守三四日式部大輔新田足利両家祖長男義新田大炊助福領守府将軍号大光院殿上西四男義季徳川四郎

正解テキストデータ

御系圖人皇五十六代清和天皇六代伊豫守源頼義長男源義家八幡太郎陸奥守三男義國式部大輔新田足利両家祖長男義重新田大炊助贈鎮守府将軍号大光院殿上西四男義季徳川四郎

※赤字は認識結果や読み順序に誤りや重複のある箇所を表し、【 】内は認識漏れを表しています。ver.1では認識時の漏れや誤りが多く、「式部大輔」の読み順序上の位置についても誤っている一方、ver.2では文字単位の認識誤りのみとなっています。



『鯨船』から認識の難しい朱書きの箇所についてver.1とver.2の認識結果を比較した画像

『鯨船』第1冊,[1---] [写]. 国立国会図書館デジタルコレクション

※ver.1による文字領域の認識結果(左)とver.2による認識結果(右)。ver.2では朱書き及び割書き部分を認識対象として把握できており、テキスト化の対象となっていることが分かります。