青空文庫振り仮名注釈付き音声コーパスの公開について

2024年02月07日

NDLラボ公式GitHub上に、青空文庫振り仮名注釈付き音声コーパスを公開しました。

このデータセットは、 青空文庫で公開されている著作権保護期間が満了した作品のテキストデータと、視覚障害者情報総合ネットワーク「サピエ」(社会福祉法人日本点字図書館がシステムを管理し、全国視覚障害者情報提供施設協会が運営)が視覚障害者に提供している音声デイジーデータとを照合して構築した、単語とその読みの情報に関するデータセットです。

このデータセットは大量のデータを必要とする機械学習等への利用を想定したもので、2021年9月に公開した「振り仮名注釈コーパス(青空文庫コーパス)」が点字データを利用して作成したデータセットであるのに対し、 音声デイジーのデータを利用して作成した点が異なります。

詳細についてはリンク先をご参照ください。