「次世代デジタルライブラリー」全文検索対象拡大及び画像検索機能改善のお知らせ

2022年01月31日

1.次世代デジタルライブラリーの全文検索対象の拡大

著作権保護期間の満了した図書資料約7万点を全文検索の対象に加えました。

今回追加したテキストデータは、令和3年度に当館が実施中のデジタル化資料のOCRテキスト化事業(参考: https://lab.ndl.go.jp/event/digicafe2021/ )の成果物の一部で、令和3年12月末時点で当館に納品されたテキストデータになります。

著作権保護期間の満了した図書資料は全部で約26万点あり、令和4年3月までに納品に合わせて順次追加を行います。

なお、次世代デジタルライブラリーでは、技術的検証を行うため、また、OCRテキスト化事業の成果を迅速にお届けするため、検索対象を著作権保護期間の満了した資料に限定して、現在の国立国会図書館デジタルコレクションの全文検索機能とは別に、実験的・先行的に提供しています。

著作権保護期間の満了していない資料を含めた全デジタル化資料の全文検索機能については、 令和5年1月頃にリリース予定の次期・国立国会図書館デジタルコレクションの全文検索機能において提供する見通しです。

2.画像検索機能の改善

Google Landmark Dataset(https://github.com/cvdfoundation/google-landmark )(CC BY4.0相当、リンク先参照)

を利用して、画像検索に利用しているモデルの改善を行いました。 検索精度及び検索応答速度が向上しています。