NDL Ngram Viewerの公開及びOCR学習用データセットの公開について

2022年05月31日

NDL Ngram Viewerの公開について

国立国会図書館が提供するデジタル化資料のOCRテキスト化事業の成果物である全文テキストを活用した実験サービスとして、 キーワードの出版年代毎の出現頻度の可視化及び比較が可能なNgram Viewerを公開しました。

このサービスは、デジタル化資料を活用した新たなサービス創出に向けた調査研究の一環として、次世代システム開発研究室が新たに開発したものです。

全文テキストデータに含まれる、約8.3億単語・フレーズに対して、複数キーワードの出現頻度の比較や、正規表現を用いた検索・列挙が可能です。

公開時点の対象は、次世代デジタルライブラリーと同様に著作権保護期間の満了した図書資料約28万点分です。対象資料の範囲は、今後拡大する予定です。

詳しくは、以下のサービスのページをご覧ください。

パブリックドメインOCR学習用データセット(令和3年度OCR処理プログラム研究開発事業分)について

国立国会図書館が令和3年度に株式会社モルフォAIソリューションズに委託(OCR学習用データセット構築は凸版印刷株式会社が担当)して実施したデジタル化資料のOCR処理プログラム研究開発事業において、OCRモデルの性能改善のために作成した機械学習用データセットのうち、著作権保護期間の満了した資料から作成されたデータセットです。2022年5月末現在、3,997画像分を公開しています。

※令和3年度のOCR関連事業の概要については、次をご参照ください。