次世代デジタルライブラリーAPIからの構造化テキストデータの提供について

2025年08月26日

これまで、著作権保護期間が満了した図書資料約28万点のOCRテキストデータについて、次世代デジタルライブラリーからダウンロード機能を提供してきましたが、 この度、データの利便性の改善を図るため、従来の形式にくわえて、段落やキャプション、タイトルといったレイアウト要素を備えた構造化テキストデータの提供を行います。

多段組や複雑なレイアウトの場合のテキストデータの読み順序についても改善しています。是非活用ください。

元の画像xmlをキャプチャした画像

出典:宮内府図書寮 編 図書寮典籍解題 第1

使い方について、詳しくはAPIの説明ページをご覧ください。

※留意点

従来次世代デジタルライブラリーが提供していたOCRテキストデータに対して、国立国会図書館が開発するOCR処理プログラムによって推定したレイアウト情報及び読み順序を自動付与したものであり、誤りを含みます。

今後の研究開発の進捗等によって構造化テキストデータの形式や内容を予告なく変更することがあります。