GitHub公開プログラムの追加

2020年07月06日

PDFからテキストデータを抽出して機械学習等に適用するためのツールをGitHubから公開しました。

https://github.com/ndl-lab/dataprocessingforpdf(外部サイト)

ご利用の際は「NDLラボ公式GitHubアカウント運用方針」をご一読ください。

なお、NDLラボ公式GitHubアカウント(外部サイト)では、プログラムのほか、以下のようなデータセットも公開しています。あわせてご利用ください。

  • NDL-DocLデータセット(資料画像レイアウトデータセット)
  • 文字画像データセット(漢字300文字版)
  • 文字画像データセット(平仮名73文字版)
  • 次世代デジタルライブラリーに搭載されているテキストデータ