ホーム > データ(活用する) > 令和3年度OCR関連事業について > 1 令和3年度デジタル化資料のOCRテキスト化

1 令和3年度デジタル化資料のOCRテキスト化

令和3年度、国立国会図書館(以下、「当館」といいます。)は、令和2年度補正予算(第3号)により、提供するほぼ全てのデジタル化資料約247万点のOCRによるテキスト化事業(以下、「OCRテキスト化事業」といいます。)をLINE株式会社に委託して実施しました。

1. OCRテキスト化事業の目的

当館の提供するデジタル化資料のほとんどはテキストデータを持たない画像データです。

昨今のOCR(光学的文字認識)処理技術の進展により、画像データからテキストデータを作成し、本文検索サービスとして提供することが可能となってきました。当館の提供する全てのデジタル化資料をOCR処理によってテキスト化し、デジタル化資料の中身に対する検索サービスを広く提供することは急務です。

しかし、当館のデジタル化資料は昭和前期以前に受け入れた資料が半分近くを占めており、既存のOCRサービス・OCRソフトウェアを用いた場合、レイアウトがシンプルで読みやすい新刊書等に比べてテキスト化の文字認識性能が大きく下がることがわかっていました。

また、2億画像を超えるほぼ全てのデジタル化資料の全文テキストデータ作成に当たっては、処理に必要なコンピュータ等の機材の確保も大きな課題となります。

そこで、当館の提供する資料の多様性を踏まえ、当館資料に最適化された認識性能と適切な処理速度を確保しつつ、テキスト化の性能向上のためのOCR処理プログラムに対する改善策を講じたテキスト化を行うために、外部委託によるOCRテキスト化事業を実施しました。

2. OCRテキスト化の対象資料

令和2年12月時点で当館が国立国会図書館デジタルコレクション上で提供を行っていた図書・雑誌等資料、約247万点(約2.2億画像)です。

対象資料の詳細な内訳は下表のとおりです。

コレクション名称 資料概数(点) 画像数
雑誌 1,320,000 72,462,853
図書 973,000 137,728,493
博士論文 149,000 12,449,873
官報 21,000 387,962
録音・映像関係資料-脚本 3,000 137,138
地図 600 566
特殊デジタルコレクション-帝国図書館文書 200 27,838
(合計) 2,466,300 223,194,723

3. OCRテキスト化事業の大まかな流れ

OCRテキスト化事業開始後、まず当館の提供するデジタル化資料(2に示した対象資料のうち図書と雑誌)を分析・加工してOCR学習用データセットを作成し、受託者が保有するOCR処理プログラムに対して機械学習を用いた性能改善を行い、当館のデジタル化資料に最適化された高い品質でテキスト化できるよう研究開発を行いました。

研究開発期間を経て、性能改善したOCR処理プログラムが、4.1.及び4.2.に示す2種類の性能指標の両方を満たしたことを当館の性能測定検査により確認した後に、2に示した対象資料についてOCRテキスト化作業を実施しました。

また、上記の作業と並行して、テキストデータの構造化のため、一部の資料(1960年代以降に出版された図書)に対して、レイアウト情報(見出し、注釈、ノンブル、柱、本文、図表等)を付与する機械学習モデルの開発を行い、開発したモデルによって自動付与された資料レイアウト情報を入手しました。

作業内容の詳細については、次の資料をご覧ください。

4. OCRテキスト化事業に対して設定した性能指標

4.1. 文字認識性能

4.1.1. 文字認識性能評価の対象とする資料

図書及び雑誌のうち出版年代が判明している資料を対象としました。

次の33区分に分けてそれぞれに目標値を設定しています。

  • 図書(20区分):出版年代を1870年代から1960年代までの10年ごとに区切り、その中を日本十進分類法(NDC)に基づき、それぞれ理系(NDC4類~6類)、文系(それ以外のNDC分類)に区切った20区分

  • 雑誌(13区分):出版年代を1870年代から1990年代までの10年ごとに区切った13区分

なお、当館が性能測定検査のために用意した全330画像について、画像中のJIS水準に含まれる漢字(「々」、「仝」及び「〇(漢数字の零)」等の非漢字は含まない。)のうちJIS第1水準及びJIS第2水準の割合は96.9%でした。

4.1.2. 評価方法

認識性能は、画像ごとに文字単位についてF値($F_{measure}$)を計算することで評価しました。

F値の定義は次のとおりとしています。

$$y_{true}=\{正解文字情報に含まれる文字の多重集合\}$$
$$y_{pred}=\{認識結果に含まれる文字の多重集合\}$$
$$Precision=\dfrac{|y_{pred} \cap y_{true}|}{|y_{pred}|},Recall=\dfrac{|y_{pred} \cap y_{true}|}{|y_{true}|}$$

としたとき

$$F_{measure}=\dfrac{2Recall*Precision}{Recall+Precision}$$

F値は0から1の範囲を取り、1に近づくほど高い認識性能を表します。

4.1.3. 認識性能の判定基準

「33区分のうち30以上の区分において、F値の中央値が次の目標値を上回っていること」としました。

資料種別 出版年代 カテゴリー 達成すべき目標値
図書 1870 文系 0.63
図書 1870 理系 0.66
図書 1880 文系 0.71
図書 1880 理系 0.72
図書 1890 文系 0.73
図書 1890 理系 0.73
図書 1900 文系 0.80
図書 1900 理系 0.79
図書 1910 文系 0.84
図書 1910 理系 0.86
図書 1920 文系 0.90
図書 1920 理系 0.91
図書 1930 文系 0.91
図書 1930 理系 0.91
図書 1940 文系 0.94
図書 1940 理系 0.92
図書 1950 文系 0.95
図書 1950 理系 0.96
図書 1960 文系 0.97
図書 1960 理系 0.98
雑誌 1870 - 0.72
雑誌 1880 - 0.78
雑誌 1890 - 0.80
雑誌 1900 - 0.90
雑誌 1910 - 0.85
雑誌 1920 - 0.92
雑誌 1930 - 0.91
雑誌 1940 - 0.93
雑誌 1950 - 0.94
雑誌 1960 - 0.96
雑誌 1970 - 0.98
雑誌 1980 - 0.97
雑誌 1990 - 0.97
平均 0.86

(注)文字認識性能の目標値の根拠

文字認識性能の目標値は、33区分について当館でサンプリングした各10画像ずつの合計330画像に対して人手による作業で正解テキストデータを作成し、次に挙げる3種類のOCRサービス・OCRソフトウェアの認識性能を同様の方法で測定し、各区分毎にそれぞれ最も高い性能を示したOCRサービス・OCRソフトウェアのF値(最高値) としました。(平たくいえば、3種類のOCR処理のいいとこ取りです。)

なお、OCRサービスについては、令和2年10月時点でそれぞれの公式ウェブサイトから提供されていたサービスを利用しています。

4.2. 読み取り方向の性能

4.2.1. 読み取り方向評価の対象とする資料

原則として作業対象資料全てを評価対象としました。

4.2.2. 読み取り方向の性能評価指標

目視で読み取り方向(縦書き・横書き)を判定した際、対象画像のうち95%以上の画像の認識結果が正しい方向に読み取れていることとし、改行を取り除いた出力結果における全文字の半分以上について文字列の読み取り方向を誤っていると判断する場合、基準を満たしていないものと判定しました。

なお、今回のOCRテキスト化事業の主たる目的が、全文テキスト検索用途のテキストデータの入手であることから、縦書き横書きの読み方向を正しくテキスト化できていることが重要です。したがって、文やフレーズ単位で意味の取れる方向に読み取れていれば正しい方向に読み取れたものと扱いました。

5. 性能改善後の文字認識性能(実績値)

性能測定検査のために当館が用意した330画像のデータセットと受託者が用意した3,300画像のデータセットの合計3,630画像で評価を行った結果を下表に示しています。(データセットごとの個別の評価結果及び詳細情報については性能検査結果(詳細)(Excelファイル41KB)をご覧ください。)

全33区分中、1970年代に出版された雑誌資料を除く32区分で目標値よりも高い性能を得ました。

資料種別 出版年代 カテゴリー 改善後の実績値 達成すべき目標値 目標値との差分
図書 1870 文系 0.9147 0.63 +0.2847
図書 1870 理系 0.9013 0.66 +0.2413
図書 1880 文系 0.9568 0.71 +0.2468
図書 1880 理系 0.9416 0.72 +0.2216
図書 1890 文系 0.9595 0.73 +0.2295
図書 1890 理系 0.9599 0.73 +0.2299
図書 1900 文系 0.9651 0.80 +0.1651
図書 1900 理系 0.9645 0.79 +0.1745
図書 1910 文系 0.9710 0.84 +0.1310
図書 1910 理系 0.9686 0.86 +0.1086
図書 1920 文系 0.9775 0.90 +0.0775
図書 1920 理系 0.9794 0.91 +0.0694
図書 1930 文系 0.9765 0.91 +0.0665
図書 1930 理系 0.9776 0.91 +0.0676
図書 1940 文系 0.9862 0.94 +0.0462
図書 1940 理系 0.9764 0.92 +0.0564
図書 1950 文系 0.9895 0.95 +0.0395
図書 1950 理系 0.9767 0.96 +0.0167
図書 1960 文系 0.9908 0.97 +0.0208
図書 1960 理系 0.9838 0.98 +0.0038
雑誌 1870 - 0.9646 0.72 +0.2446
雑誌 1880 - 0.9684 0.78 +0.1884
雑誌 1890 - 0.9721 0.80 +0.1721
雑誌 1900 - 0.9738 0.90 +0.0738
雑誌 1910 - 0.9716 0.85 +0.1216
雑誌 1920 - 0.9757 0.92 +0.0557
雑誌 1930 - 0.9717 0.91 +0.0617
雑誌 1940 - 0.9684 0.93 +0.0384
雑誌 1950 - 0.9702 0.94 +0.0302
雑誌 1960 - 0.9794 0.96 +0.0194
雑誌 1970 - 0.9721 0.98 -0.0079
雑誌 1980 - 0.9807 0.97 +0.0107
雑誌 1990 - 0.9786 0.97 +0.0086
平均 0.9686 0.86 +0.1065

6. 成果物に関連する情報

6.1. 成果物の公開

OCRテキスト化事業の成果物は、現在、次の形で提供しています。

① OCRテキスト化事業の対応字種データ

OCRテキスト化事業によって入手したOCRテキストデータの対応字種(23,026文字種)を一覧化した資料(UTF-8)です。

② 性能改善作業の一環で作成したOCR学習用データセット(著作権保護期間満了分)

OCRテキスト化事業によって入手したOCR学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットを公開しています。

③ 次世代デジタルライブラリー(著作権保護期間満了分)

OCRテキスト化事業において入手したOCRテキストデータのうち、著作権保護期間の満了した資料(図書のみ)28万点から作成したテキストデータを利用した全文テキスト検索機能及び全文テキストダウンロード機能を提供している当館の実験サービスです。

④ NDL Ngram Viewer(著作権保護期間満了分)

OCRテキスト化事業において入手したOCRテキストデータのうち、著作権保護期間の満了した資料(図書のみ)28万点から作成したテキストデータに対して、出版年代ごとの出現頻度を可視化・列挙することができる当館の実験サービスです。

6.2. 当館における成果物の利用

OCRテキスト化事業において作成された約247万資料分の全文テキストデータの大部分は、令和4年12月にリリース予定の次期国立国会図書館デジタルコレクションにおける全文検索機能として提供する想定です。

また、令和4年度中には、市場にアクセシブルな電子書籍等が流通している場合などを除き、視覚障害者等用データ送信サービスを通じて、全文テキストデータを視覚障害者等に提供する予定です。

6.3. 【研究者・開発者向け】一般公開していない成果物の利用について

著作権保護期間の存続している資料から作成したOCRテキストデータ及びOCR学習用データセットについては、原資料の著作権保護の観点から不特定多数に向けて公開することができません。

これらのデータに関しては、当館との協議のうえで著作権法上認められた範囲内での利用(著作権法第30条の4の規定による機械学習目的など)に限り、当館と書面を取り交わした上で提供することが可能です。

特に図書館サービスの向上に資する調査研究・技術開発を目的とした利用を歓迎します。

データの提供を希望される方は下記の連絡先までお問い合わせください。

lab(アットマーク)ndl.go.jp

その際、①利用者、②利用したいデータ(内容・範囲)、③利用目的、④利用方法、⑤利用期間 をお知らせください。