1 令和3年度デジタル化資料のOCRテキスト化
令和3年度、国立国会図書館(以下、「当館」といいます。)は、令和2年度補正予算(第3号)により、提供するほぼ全てのデジタル化資料約247万点のOCRによるテキスト化事業(以下、「OCRテキスト化事業」といいます。)をLINE株式会社に委託して実施しました。
1. OCRテキスト化事業の目的
当館の提供するデジタル化資料のほとんどはテキストデータを持たない画像データです。
昨今のOCR(光学的文字認識)処理技術の進展により、画像データからテキストデータを作成し、本文検索サービスとして提供することが可能となってきました。当館の提供する全てのデジタル化資料をOCR処理によってテキスト化し、デジタル化資料の中身に対する検索サービスを広く提供することは急務です。
しかし、当館のデジタル化資料は昭和前期以前に受け入れた資料が半分近くを占めており、既存のOCRサービス・OCRソフトウェアを用いた場合、レイアウトがシンプルで読みやすい新刊書等に比べてテキスト化の文字認識性能が大きく下がることがわかっていました。
また、2億画像を超えるほぼ全てのデジタル化資料の全文テキストデータ作成に当たっては、処理に必要なコンピュータ等の機材の確保も大きな課題となります。
そこで、当館の提供する資料の多様性を踏まえ、当館資料に最適化された認識性能と適切な処理速度を確保しつつ、テキスト化の性能向上のためのOCR処理プログラムに対する改善策を講じたテキスト化を行うために、外部委託によるOCRテキスト化事業を実施しました。
2. OCRテキスト化の対象資料
令和2年12月時点で当館が国立国会図書館デジタルコレクション上で提供を行っていた図書・雑誌等資料、約247万点(約2.2億画像)です。
対象資料の内訳は下表のとおりです。
コレクション名称 | コレクション概要 | 資料概数(点) | 画像数 |
---|---|---|---|
雑誌 | 明治期以降に刊行された雑誌(刊行後5年以上経過したもの) | 1,320,000 | 72,462,853 |
図書 | 明治期以降、1968年までに受け入れた図書、震災・災害関係資料の一部(1969年以降に受け入れたものを含む。) | 973,000 | 137,728,493 |
博士論文 | 1990~2000年度に送付を受けた論文 | 149,000 | 12,449,873 |
官報 | 1883(明治16)年7月2日(創刊)~1952(昭和27)年4月30日に発行された官報 | 21,000 | 387,962 |
録音・映像関係資料-脚本 | 日本脚本アーカイブズ推進コンソーシアムから寄贈された1980年以前の放送脚本(テレビ・ラジオ番組の脚本・台本)の一部 | 3,000 | 137,138 |
地図 | 明治期から昭和前期までに国内で刊行された地図資料 | 600 | 566 |
特殊デジタルコレクション-帝国図書館文書 | 国立国会図書館の源流の一つである帝国図書館の文書資料 | 200 | 27,838 |
(合計) | 2,466,300 | 223,194,723 |
出版年代ごとのより詳細な資料点数の内訳については、次のファイルを参照ください。
3. OCRテキスト化事業の大まかな流れ
OCRテキスト化事業開始後、まず当館の提供するデジタル化資料(2に示した対象資料のうち図書と雑誌)を分析・加工してOCR学習用データセットを作成し、受託者が保有するOCR処理プログラムに対して機械学習を用いた性能改善を行い、当館のデジタル化資料に最適化された高い品質でテキスト化できるよう研究開発を行いました。
研究開発期間を経て、性能改善したOCR処理プログラムが、4.1.及び4.2.に示す2種類の性能指標の両方を満たしたことを当館の性能測定検査により確認した後に、2に示した対象資料についてOCRテキスト化作業を実施しました。
また、上記の作業と並行して、テキストデータの構造化のため、一部の資料(1960年代以降に出版された図書)に対して、レイアウト情報(見出し、注釈、ノンブル、柱、本文、図表等)を付与する機械学習モデルの開発を行い、開発したモデルによって自動付与された資料レイアウト情報を入手しました。
作業内容の詳細については、次の資料をご覧ください。
4. OCRテキスト化事業に対して設定した性能指標
4.1. 文字認識性能
4.1.1. 文字認識性能評価の対象とする資料
図書及び雑誌のうち出版年代が判明している資料を対象としました。
次の33区分に分けてそれぞれに目標値を設定しています。
図書(20区分):出版年代を1870年代から1960年代までの10年ごとに区切り、その中を日本十進分類法(NDC)に基づき、それぞれ理系(NDC4類~6類)、文系(それ以外のNDC分類)に区切った20区分
雑誌(13区分):出版年代を1870年代から1990年代までの10年ごとに区切った13区分
なお、当館が性能測定検査のために用意した全330画像について、画像中のJIS水準に含まれる漢字(「々」、「仝」及び「〇(漢数字の零)」等の非漢字は含まない。)のうちJIS第1水準及びJIS第2水準の割合は96.9%でした。
4.1.2. 評価方法
認識性能は、画像ごとに文字単位についてF値($F_{measure}$)を計算することで評価しました。
F値の定義は次のとおりとしています。
$$y_{true}=\{正解文字情報に含まれる文字の多重集合\}$$
$$y_{pred}=\{認識結果に含まれる文字の多重集合\}$$
$$Precision=\dfrac{|y_{pred} \cap y_{true}|}{|y_{pred}|},Recall=\dfrac{|y_{pred} \cap y_{true}|}{|y_{true}|}$$
としたとき$$F_{measure}=\dfrac{2Recall*Precision}{Recall+Precision}$$
F値は0から1の範囲を取り、1に近づくほど高い認識性能を表します。
4.1.3. 認識性能の判定基準
「33区分のうち30以上の区分において、F値の中央値が次の目標値を上回っていること」としました。
資料種別 | 出版年代 | カテゴリー | 達成すべき目標値 |
---|---|---|---|
図書 | 1870 | 文系 | 0.63 |
図書 | 1870 | 理系 | 0.66 |
図書 | 1880 | 文系 | 0.71 |
図書 | 1880 | 理系 | 0.72 |
図書 | 1890 | 文系 | 0.73 |
図書 | 1890 | 理系 | 0.73 |
図書 | 1900 | 文系 | 0.80 |
図書 | 1900 | 理系 | 0.79 |
図書 | 1910 | 文系 | 0.84 |
図書 | 1910 | 理系 | 0.86 |
図書 | 1920 | 文系 | 0.90 |
図書 | 1920 | 理系 | 0.91 |
図書 | 1930 | 文系 | 0.91 |
図書 | 1930 | 理系 | 0.91 |
図書 | 1940 | 文系 | 0.94 |
図書 | 1940 | 理系 | 0.92 |
図書 | 1950 | 文系 | 0.95 |
図書 | 1950 | 理系 | 0.96 |
図書 | 1960 | 文系 | 0.97 |
図書 | 1960 | 理系 | 0.98 |
雑誌 | 1870 | - | 0.72 |
雑誌 | 1880 | - | 0.78 |
雑誌 | 1890 | - | 0.80 |
雑誌 | 1900 | - | 0.90 |
雑誌 | 1910 | - | 0.85 |
雑誌 | 1920 | - | 0.92 |
雑誌 | 1930 | - | 0.91 |
雑誌 | 1940 | - | 0.93 |
雑誌 | 1950 | - | 0.94 |
雑誌 | 1960 | - | 0.96 |
雑誌 | 1970 | - | 0.98 |
雑誌 | 1980 | - | 0.97 |
雑誌 | 1990 | - | 0.97 |
平均 | 0.86 |
(注)文字認識性能の目標値の根拠
文字認識性能の目標値は、33区分について当館でサンプリングした各10画像ずつの合計330画像に対して人手による作業で正解テキストデータを作成し、次に挙げる3種類のOCRサービス・OCRソフトウェアの認識性能を同様の方法で測定し、各区分毎にそれぞれ最も高い性能を示したOCRサービス・OCRソフトウェアのF値(最高値) としました。(平たくいえば、3種類のOCR処理のいいとこ取りです。)
なお、OCRサービスについては、令和2年10月時点でそれぞれの公式ウェブサイトから提供されていたサービスを利用しています。
4.2. 読み取り方向の性能
4.2.1. 読み取り方向評価の対象とする資料
原則として作業対象資料全てを評価対象としました。
4.2.2. 読み取り方向の性能評価指標
目視で読み取り方向(縦書き・横書き)を判定した際、対象画像のうち95%以上の画像の認識結果が正しい方向に読み取れていることとし、改行を取り除いた出力結果における全文字の半分以上について文字列の読み取り方向を誤っていると判断する場合、基準を満たしていないものと判定しました。
なお、今回のOCRテキスト化事業の主たる目的が、全文テキスト検索用途のテキストデータの入手であることから、縦書き横書きの読み方向を正しくテキスト化できていることが重要です。したがって、文やフレーズ単位で意味の取れる方向に読み取れていれば正しい方向に読み取れたものと扱いました。
5. 性能改善後の文字認識性能(実績値)
性能測定検査のために当館が用意した330画像のデータセットと受託者が用意した3,300画像のデータセットの合計3,630画像で評価を行った結果を下表に示しています。(データセットごとの個別の評価結果及び詳細情報については性能検査結果(詳細)(Excelファイル 41KB)をご覧ください。)
全33区分中、1970年代に出版された雑誌資料を除く32区分で目標値よりも高い性能を得ました。
資料種別 | 出版年代 | カテゴリー | 改善後の実績値 | 達成すべき目標値 | 目標値との差分 |
---|---|---|---|---|---|
図書 | 1870 | 文系 | 0.9147 | 0.63 | +0.2847 |
図書 | 1870 | 理系 | 0.9013 | 0.66 | +0.2413 |
図書 | 1880 | 文系 | 0.9568 | 0.71 | +0.2468 |
図書 | 1880 | 理系 | 0.9416 | 0.72 | +0.2216 |
図書 | 1890 | 文系 | 0.9595 | 0.73 | +0.2295 |
図書 | 1890 | 理系 | 0.9599 | 0.73 | +0.2299 |
図書 | 1900 | 文系 | 0.9651 | 0.80 | +0.1651 |
図書 | 1900 | 理系 | 0.9645 | 0.79 | +0.1745 |
図書 | 1910 | 文系 | 0.9710 | 0.84 | +0.1310 |
図書 | 1910 | 理系 | 0.9686 | 0.86 | +0.1086 |
図書 | 1920 | 文系 | 0.9775 | 0.90 | +0.0775 |
図書 | 1920 | 理系 | 0.9794 | 0.91 | +0.0694 |
図書 | 1930 | 文系 | 0.9765 | 0.91 | +0.0665 |
図書 | 1930 | 理系 | 0.9776 | 0.91 | +0.0676 |
図書 | 1940 | 文系 | 0.9862 | 0.94 | +0.0462 |
図書 | 1940 | 理系 | 0.9764 | 0.92 | +0.0564 |
図書 | 1950 | 文系 | 0.9895 | 0.95 | +0.0395 |
図書 | 1950 | 理系 | 0.9767 | 0.96 | +0.0167 |
図書 | 1960 | 文系 | 0.9908 | 0.97 | +0.0208 |
図書 | 1960 | 理系 | 0.9838 | 0.98 | +0.0038 |
雑誌 | 1870 | - | 0.9646 | 0.72 | +0.2446 |
雑誌 | 1880 | - | 0.9684 | 0.78 | +0.1884 |
雑誌 | 1890 | - | 0.9721 | 0.80 | +0.1721 |
雑誌 | 1900 | - | 0.9738 | 0.90 | +0.0738 |
雑誌 | 1910 | - | 0.9716 | 0.85 | +0.1216 |
雑誌 | 1920 | - | 0.9757 | 0.92 | +0.0557 |
雑誌 | 1930 | - | 0.9717 | 0.91 | +0.0617 |
雑誌 | 1940 | - | 0.9684 | 0.93 | +0.0384 |
雑誌 | 1950 | - | 0.9702 | 0.94 | +0.0302 |
雑誌 | 1960 | - | 0.9794 | 0.96 | +0.0194 |
雑誌 | 1970 | - | 0.9721 | 0.98 | -0.0079 |
雑誌 | 1980 | - | 0.9807 | 0.97 | +0.0107 |
雑誌 | 1990 | - | 0.9786 | 0.97 | +0.0086 |
平均 | 0.9686 | 0.86 | +0.1065 |
6. 成果物に関連する情報
6.1. 成果物の公開
OCRテキスト化事業の成果物は、現在、次の形で提供しています。
① OCRテキスト化事業の対応字種データ
OCRテキスト化事業によって入手したOCRテキストデータの対応字種(23,026文字種)を一覧化した資料(UTF-8)です。
② 性能改善作業の一環で作成したOCR学習用データセット(著作権保護期間満了分)
OCRテキスト化事業によって入手したOCR学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットを公開しています。
③ OCR全文テキストデータ(著作権保護期間満了分)
OCRテキスト化事業において入手したOCRテキストデータのうち、著作権保護期間の満了した資料(図書資料のみ)28万点のテキストデータです。
次世代デジタルライブラリーの全文テキストダウンロード機能から提供しています。
④ NDL Ngram Data(Ngramデータセット)
OCRテキスト化事業において入手したOCRテキストデータのうち、図書資料及び雑誌資料約230万点に対して作成したOCRテキストデータのngram頻度統計情報のデータセットです。
6.2. 成果物を利用した当館サービス
①国立国会図書館デジタルコレクション
OCRテキスト化事業において作成された約247万資料分の全文テキストデータの大部分を、国立国会図書館デジタルコレクションにおける全文検索機能として提供しています。
②実験サービス 次世代デジタルライブラリー
OCRテキスト化事業において入手したOCRテキストデータのうち、著作権保護期間の満了した資料(図書資料のみ)28万点のテキストデータを利用した、全文テキスト検索機能及び全文テキストダウンロード機能を提供している当館の実験サービスです。
③実験サービス NDL Ngram Viewer
OCRテキスト化事業において入手したOCRテキストデータのうち、図書資料及び雑誌資料約230万点に対して、出版年代ごとの出現頻度を可視化・列挙することができる当館の実験サービスです。
④視覚障害者等用データ送信サービス
令和4年度中には、市場にアクセシブルな電子書籍等が流通している場合などを除き、視覚障害者等用データ送信サービスを通じて、全文テキストデータを視覚障害者等に提供する予定です。