振り仮名注釈コーパスの公開について
2021年09月21日
NDLラボ公式GitHub上に、2種類の振り仮名注釈コーパスを公開しました。
このデータセットは、日本語のテキストを分かち書きにした上で、分割した箇所に振り仮名を付与したものです。
青空文庫の公開作品のテキストデータに対し視覚障害者情報総合ネットワーク「サピエ」(社会福祉法人日本点字図書館がシステムを管理し、全国視覚障害者情報提供施設協会が運営)が視覚障害者に提供している点字データに由来する振り仮名を付与して作成したものと、国立国会図書館が提供する書誌データを元に作成したものの2種類を公開しています。
- 青空文庫及びサピエの点字データから作成した振り仮名のデータセット
- 国立国会図書館の書誌データから作成した振り仮名のデータセット
詳細についてはリンク先をご参照ください。