次世代デジタルライブラリーへの新機能(表の構造化)の追加及び新機能のソースコード及びデータセットの公開について
実験サービス次世代デジタルライブラリーにおいて、 資料画像に含まれる表から表形式の構造化テキストデータを作成する新機能を追加しました。
また、新機能実現のためのプログラムのソースコード及び開発時に作成したデータセットを公開しました。
1. 新機能について
資料画像の表示画面でデジタル化資料の表領域を選択することによって、当該領域内のOCRテキストデータをHTML又はTSV形式に構造化して取得することができるようになりました。
利用手順は以下のとおりです。
1) ビューワ右上のパネルから二段目一番右の「表の構造化」アイコンをクリックする
2) ポップアップの指示に従って「範囲選択」をクリックする
3) 構造化したい領域をドラッグアンドドロップで選択する(オレンジ色の箇所が選択領域)
(画像の出典:台湾総督府農業試験所 編『台湾総督府農業試験所彙報』第197号 甘藷の生育、収量並に品質に及ぼす懽漑の影響,台湾総督府農業試験所,昭和15-19. https://lab.ndl.go.jp/dl/book/1046122?page=6 )
4) HTML又はTSVの形式を選択し、「テーブル形式に変換」をクリックする
5) 上部に表示される内容を直接コピーすることで表計算ソフトに貼り付けることができるほか、選択した形式に構造化されたテキストデータがウェブブラウザからダウンロードされる
2. ソースコード及びデータセットの公開について
新機能実現のためのプログラムのソースコード及び新機能の開発のため作成した機械学習用データセットをNDLラボ公式GitHubアカウントから公開しました。
(1)ソースコード
名称:NDLTSR
URL:https://github.com/ndl-lab/ndltsr
詳細:新機能の開発に当たって作成した機械学習モデルを含むソースコード。利用条件はCC BY4.0(クリエイティブ・コモンズ表示)
(2)機械学習用データセット
名称:NDLTableSet
URL:https://github.com/ndl-lab/ndltableset
詳細:著作権保護期間が満了した図書資料の画像から作成した、表の構造を記述したテキストと画像のデータセット(750画像)。利用条件はPDM(パブリックドメインマーク)