次世代デジタルライブラリーへの新機能(表の構造化)の追加及び新機能のソースコード及びデータセットの公開について

2023年12月05日

実験サービス次世代デジタルライブラリーにおいて、 資料画像に含まれる表から表形式の構造化テキストデータを作成する新機能を追加しました。

また、新機能実現のためのプログラムのソースコード及び開発時に作成したデータセットを公開しました。

1. 新機能について

資料画像の表示画面でデジタル化資料の表領域を選択することによって、当該領域内のOCRテキストデータをHTML又はTSV形式に構造化して取得することができるようになりました。

利用手順は以下のとおりです。

1) ビューワ右上のパネルから二段目一番右の「表の構造化」アイコンをクリックする

表を構造化するボタンの位置を示した画像

2) ポップアップの指示に従って「範囲選択」をクリックする

ポップアップの内容を説明した画像

3) 構造化したい領域をドラッグアンドドロップで選択する(オレンジ色の箇所が選択領域)

範囲選択で選択した領域を示した画像

(画像の出典:台湾総督府農業試験所 編『台湾総督府農業試験所彙報』第197号 甘藷の生育、収量並に品質に及ぼす懽漑の影響,台湾総督府農業試験所,昭和15-19. https://lab.ndl.go.jp/dl/book/1046122?page=6

4) HTML又はTSVの形式を選択し、「テーブル形式に変換」をクリックする

ポップアップの内容を説明した画像

5) 上部に表示される内容を直接コピーすることで表計算ソフトに貼り付けることができるほか、選択した形式に構造化されたテキストデータがウェブブラウザからダウンロードされる

構造化されたテキストデータを示した画像

2. ソースコード及びデータセットの公開について

新機能実現のためのプログラムのソースコード及び新機能の開発のため作成した機械学習用データセットをNDLラボ公式GitHubアカウントから公開しました。

(1)ソースコード

名称:NDLTSR

URL:https://github.com/ndl-lab/ndltsr

詳細:新機能の開発に当たって作成した機械学習モデルを含むソースコード。利用条件はCC BY4.0(クリエイティブ・コモンズ表示)

(2)機械学習用データセット

名称:NDLTableSet

URL:https://github.com/ndl-lab/ndltableset

詳細:著作権保護期間が満了した図書資料の画像から作成した、表の構造を記述したテキストと画像のデータセット(750画像)。利用条件はPDM(パブリックドメインマーク)