GitHub公開プログラムの追加

2020年07月06日

PDFからテキストデータを抽出して機械学習等に適用するためのツールをGitHubから公開しました。

https://github.com/ndl-lab/dataprocessingforpdf（外部サイト）

ご利用の際は「NDLラボ公式GitHubアカウント運用方針」をご一読ください。

なお、NDLラボ公式GitHubアカウント（外部サイト）では、プログラムのほか、以下のようなデータセットも公開しています。あわせてご利用ください。

NDL-DocLデータセット（資料画像レイアウトデータセット）
文字画像データセット（漢字300文字版）
文字画像データセット（平仮名73文字版）
次世代デジタルライブラリーに搭載されているテキストデータ

お知らせ一覧: カテゴリメニューを閉じるカテゴリメニューを開く