2022年11月1日 「次世代デジタルライブラリー」の全文検索対象を古典籍資料にも拡大しました

2022年11月01日

このたび、「次世代デジタルライブラリー」に、デジタル化済み古典籍資料の一部(江戸期以前のくずし字資料等約6万点)のOCR全文テキストデータを追加し、全文検索できるようにしました。

今回追加したOCR全文テキストデータは、国立国会図書館が令和3年度に実施したOCR関連事業で得た知見等を踏まえ、機械学習技術を活用して当館の次世代システム開発研究室が内製で開発したOCRソフトウェアで作成したものです。

今後、年内を目途に、ほぼ全てのデジタル化済み古典籍資料に検索対象を拡大していく予定です。これにより、著作権保護期間が満了した古典籍資料及び図書資料約35万点の全文検索が可能となる予定です。

詳しくは、古典籍資料のOCRテキスト化実験のページをご覧ください。