OCR1行データセットの公開について

2021年11月09日

NDLラボ公式GitHub上に、OCR1行データセットを公開しました。

本データセットは、デジタル化資料から切り出した1行分の画像とテキストとを対応付け、OCR等の学習用データセットとして整備したものです。国立国会図書館デジタルコレクションからインターネット公開している著作権保護期間の満了したデジタル資料の目次コマ画像と、目次のテキスト情報を対応付けて作成しました。
2021年11月現在2,339行分のデータが含まれており、今後追加を行う予定です。

詳細については以下のリンク先をご参照ください。