青空文庫振り仮名注釈付き音声コーパスver.2の公開について
2025年03月07日
NDLラボ公式GitHub上に、青空文庫振り仮名注釈付き音声コーパスver.2を公開しました。
このデータセットは、 青空文庫で公開されている著作権保護期間が満了した作品のテキストデータと、視覚障害者情報総合ネットワーク「サピエ」(社会福祉法人日本点字図書館がシステムを管理し、全国視覚障害者情報提供施設協会が運営)が視覚障害者に提供している音声デイジーデータとを照合して構築した、単語とその読みの情報に関するデータセットです。
- 青空文庫振り仮名注釈付き音声コーパスver.2
このデータセットは大量のデータを必要とする機械学習等への利用を想定したもので、2023年度に公開した同データセット (ver.1)の構築手順に技術的な改良を加えることで、よりコーパスサイズを増やしたデータセットの構築を行ったものであり、形式はver.1と同様です。
なお、これまで提供していた青空文庫振り仮名注釈付き音声コーパスver.1については、同リポジトリのver.1ブランチから提供を継続します。
詳細についてはリンク先をご参照ください。