NDL古典籍OCR ver.2の公開について
NDLラボ公式GitHub(外部サイト)から、「NDL古典籍OCR」のver.2を公開しました。
NDL古典籍OCRは、古典籍資料のデジタル化画像から全文テキストデータを作成する目的で、国立国会図書館が実験的に開発しているプログラムです。
令和5年1月に公開したver.1から読み順整序機能が向上したほか、文字認識性能が改善しています。
今後、ver.2を利用して、次世代デジタルライブラリーに搭載している古典籍資料の再テキスト化の処理を進めていく予定です。
- NDL古典籍OCR ver.2
- GitHubリポジトリ : https://github.com/ndl-lab/ndlkotenocr_cli
古典籍資料のテキスト化に関する概要については、次をご参照ください。
NDL古典籍OCRは、国立国会図書館がCC BY 4.0ライセンスで公開しています。詳細はREADMEをご参照ください。
なお、これまで提供していたver.1については、同リポジトリのver.1ブランチから提供を継続しています。
(参考例)
『大成武鑑 4巻付1巻』[1],出雲寺万次郎,安政6. 国立国会図書館デジタルコレクション
ver.1における出力テキストデータ
御系図人皇九十六代清和天皇六代伊豫守源頼義長男源義家八幡太郎【陸奥守三男】源義家山義域義画新田足利両家祖式部大輔【長男義重】新田大炊助増鎮守府将軍号大光院殿上西【四男】義季徳川四郎
ver.2における出力テキストデータ
御系圖人皇五十六代清和天皇六代伊豫守原頼義長男源義家八幡太郎陸奥守三四日義威式部大輔新田足利両家祖長男義率新田大炊助福領守府将軍号大光院殿上西四男義季徳川四郎
正解テキストデータ
御系圖人皇五十六代清和天皇六代伊豫守源頼義長男源義家八幡太郎陸奥守三男義國式部大輔新田足利両家祖長男義重新田大炊助贈鎮守府将軍号大光院殿上西四男義季徳川四郎
※赤字は認識結果や読み順序に誤りや重複のある箇所を表し、【 】内は認識漏れを表しています。ver.1では認識時の漏れや誤りが多く、「式部大輔」の読み順序上の位置についても誤っている一方、ver.2では文字単位の認識誤りのみとなっています。
『鯨船』第1冊,[1---] [写]. 国立国会図書館デジタルコレクション
※ver.1による文字領域の認識結果(左)とver.2による認識結果(右)。ver.2では朱書き及び割書き部分を認識対象として把握できており、テキスト化の対象となっていることが分かります。