次世代デジタルライブラリー
サービスURL
ソースコード
概要
次世代デジタルライブラリーは、国立国会図書館次世代システム開発研究室での研究を基に開発した機能を実装した実験的な検索サービスです。全文テキスト検索機能や機械学習を用いた自動処理、International Image Interoperability Framework(IIIF) API等の技術的有効性を検証することを目的としています。
検索対象は「国立国会図書館デジタルコレクション」でインターネット公開をしている著作権保護期間満了となった図書及び古典籍のデジタル化資料(約35万点)です。
「全文から検索する」では全文テキストからの検索ができます。 令和5年1月現在の対象資料は、次のとおりです。
- 令和3年度デジタル化資料のOCRテキスト化事業の成果物を利用した図書資料約28万点
- 令和4年度古典籍資料のOCRテキスト化実験の成果物である古典籍資料約8万点分
「画像から検索する」では図書及び古典籍資料から自動的に抽出された画像・図版の中から、似たものを探すことができます。
動作確認は最新のChrome及びFirefoxで行っており、Internet Exploreでは動作しません。
提供している機能には、1. 全文テキスト検索、2. 図版の自動切り出しを利用した画像検索、3. 提供資料の背景白色化、4. 資料の目次自動生成、5. スマートフォン表示のための自動画像加工、6.ページめくり方向の自動判定、7. IIIFの活用、8. 画像認識を利用した切り出された図版の内容に関連するタグ付与・絞り込み検索、があります。詳しくは「NDLラボ関係文献リスト」に掲載の文献をご覧ください。
また、関連するプログラムや機械学習に利用した学習用データセットをGitHub (https://github.com/ndl-lab) から公開しています。
なお、テキストデータは検索のために機械的処理を施したものであり、原則として修正依頼には応じておりません。
ご利用に当たって
次世代デジタルライブラリーに収録されている資料は著作権保護期間が満了した資料であり、資料データ(テキストデータ又は資料画像データ)はPDM(パブリック・ドメイン・マーク)ですが、これらの二次利用に際しては、次の事項にご配慮又はご留意くださるようお願いします。
- 資料データを編集・加工等して利用する場合は、それを行ったことを記載してください。編集・加工等を、元となる作品・原資料の作者や当館が行ったかのような態様で公表しないようご留意ください。
- 当該データが自由に二次利用可能であることの表記を保持してください。
- 元となる作品や、その作者の名声を傷つける形での利用は行わないようご留意ください。また、元となる作品に関わる文化やコミュニティへの配慮を行ってください。
- 著作権以外の権利・利益(著作者人格権、著作隣接権、肖像権、パブリシティ権、プライバシー権、商標権等)にも留意し、関連法令を遵守してください。
- 利用者が資料データを用いて行う一切の行為(資料データを編集・加工等したものを利用することを含む。)について、当館は何ら責任を負うものではありません。
- 資料データ、本ページの掲載情報等は、予告なしに変更、削除等が行われる場合があります。
また、収録資料には、今日では配慮すべき人種、民族、信条、性別、社会的身分、門地、障害、疾病、性的指向等に基づく差別語や差別的記述が含まれている資料も含まれます。当館は、当時の社会的意識を反映した歴史的記録としてそのままデジタル化し、提供しています。差別の解消を推進する法令の理念にのっとって、適切にご利用ください。
画面キャプチャ及び検索結果の複製利用については、申請不要で自由にご利用になれます。また、APIの利用については、営利目的かつ継続的な利用を除き、申請不要で自由にご利用になれます。その他の利用に関しては、問い合わせまで。