GitHub公開プログラムの追加
2020年07月06日
PDFからテキストデータを抽出して機械学習等に適用するためのツールをGitHubから公開しました。
https://github.com/ndl-lab/dataprocessingforpdf(外部サイト)
ご利用の際は「NDLラボ公式GitHubアカウント運用方針」をご一読ください。
なお、NDLラボ公式GitHubアカウント(外部サイト)では、プログラムのほか、以下のようなデータセットも公開しています。あわせてご利用ください。
- NDL-DocLデータセット(資料画像レイアウトデータセット)
- 文字画像データセット(漢字300文字版)
- 文字画像データセット(平仮名73文字版)
- 次世代デジタルライブラリーに搭載されているテキストデータ