次世代デジタルライブラリーの全文検索機能の改善を実施しました

2022年10月17日

1.全文テキストデータの差し替え

次世代デジタルライブラリーに搭載している全文テキストデータについて、読み順の自動整序処理を行い、多段組資料等についても可能な限り読み順を補正したテキストデータへと差し替えを行いました。

本改修は、「視覚障害者等用データ送信サービス」での提供に向けて、全文検索用テキストデータを読み上げ用テキストデータに変換する検討の過程で開発した技術を先行的に用いたものです。

自動処理のため、特に段組間の詰まった資料や紙面構成が複雑な資料等においてはうまく整序できない資料も存在することにご留意ください。

2.不具合等の改修

次の不具合等についても改修を行いました。

  • 検索時にタイムアウトが発生することにより、本来ヒットしている資料が検索結果に表示されない不具合

  • JISに含まれない漢字(「教」や「清」の旧字体等)において「〓」と表記されている部分の検索サポート

例えば「仏〓」と検索することで、「仏教」の「教」が旧字体になっている資料を検索できます。