文字画像データセット(平仮名73文字版)を試験公開しました
2016/09/27
国立国会図書館デジタルコレクションのインターネット公開資料から、平仮名の文字画像を切り出したデータセットを試験公開しました。画像形式はPNGで、計8万画像あります。
文字画像の例:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
こちらからダウンロードできます(どの形式でも内容は同じです)。
- 文字画像データセット(平仮名73文字版) (7z形式) (約190MB)
- 文字画像データセット(平仮名73文字版) (tar.gz形式) (約193MB)
- 文字画像データセット(平仮名73文字版) (zip形式) (約233MB)
内訳は次のとおりです。
文字 | ディレクトリ | 画像数 | 文字 | ディレクトリ | 画像数 | 文字 | ディレクトリ | 画像数 | 文字 | ディレクトリ | 画像数 |
---|---|---|---|---|---|---|---|---|---|---|---|
あ | U3042 | 1,208 | す | U3059 | 1,282 | ね | U306D | 1,126 | む | U3080 | 1,058 |
い | U3044 | 1,122 | ず | U305A | 1,046 | の | U306E | 1,160 | め | U3081 | 1,233 |
う | U3046 | 1,148 | せ | U305B | 1,165 | は | U306F | 1,247 | も | U3082 | 1,187 |
え | U3048 | 1,077 | ぜ | U305C | 1,115 | ば | U3070 | 1,105 | や | U3084 | 1,285 |
お | U304A | 1,283 | そ | U305D | 1,285 | ぱ | U3071 | 262 | ゆ | U3086 | 1,282 |
か | U304B | 1,259 | ぞ | U305E | 1,066 | ひ | U3072 | 1,074 | よ | U3088 | 1,166 |
が | U304C | 1,200 | た | U305F | 1,285 | び | U3073 | 1,045 | ら | U3089 | 1,114 |
き | U304D | 1,121 | だ | U3060 | 1,116 | ぴ | U3074 | 126 | り | U308A | 1,244 |
ぎ | U304E | 1,091 | ち | U3061 | 1,052 | ふ | U3075 | 1,285 | る | U308B | 1,190 |
く | U304F | 1,266 | ぢ | U3062 | 1,132 | ぶ | U3076 | 1,149 | れ | U308C | 1,238 |
ぐ | U3050 | 1,043 | つ | U3064 | 1,142 | ぷ | U3077 | 112 | ろ | U308D | 1,069 |
け | U3051 | 1,155 | づ | U3065 | 1,080 | へ | U3078 | 1,114 | わ | U308F | 1,283 |
げ | U3052 | 1,058 | て | U3066 | 1,213 | べ | U3079 | 1,109 | ゐ | U3090 | 1,053 |
こ | U3053 | 1,115 | で | U3067 | 1,178 | ぺ | U307A | 268 | ゑ | U3091 | 1,030 |
ご | U3054 | 1,078 | と | U3068 | 1,184 | ほ | U307B | 1,115 | を | U3092 | 1,254 |
さ | U3055 | 1,261 | ど | U3069 | 1,134 | ぼ | U307C | 1,044 | ん | U3093 | 1,285 |
ざ | U3056 | 1,070 | な | U306A | 1,233 | ぽ | U307D | 261 | (計) | 80,000 | |
し | U3057 | 1,285 | に | U306B | 1,260 | ま | U307E | 1,285 | |||
じ | U3058 | 1,099 | ぬ | U306C | 1,093 | み | U307F | 1,142 |
データセットの活用例として、機械学習による自動分類プログラムを試作しました。オープンソースの深層学習フレームワークChainerのサンプルプログラムを改変したものです。Chainerの実行環境の他、Pillowパッケージが必要です。
サンプルプログラムの実行手順の例:
$ wget http://lab.ndl.go.jp/dataset/hiragana73.tar.gz
$ tar xfz hiragana73.tar.gz
$ wget http://lab.ndl.go.jp/dataset/example/train_ndlkana.tar.gz
$ tar xfz train_ndlkana.tar.gz
$ python example/ndlkana/train.py -d hiragana73
※ダウンロードがうまく行かない場合:
利用者側のWebセキュリティ等により、一括のダウンロードがうまく行かない場合があります。その場合、次の分割データのダウンロードをお試し下さい。
- 文字画像データセット(平仮名あ~ご) (zip形式) (約49MB)
- 文字画像データセット(平仮名さ~ど) (zip形式) (約66MB)
- 文字画像データセット(平仮名な~ぽ) (zip形式) (約54MB)
- 文字画像データセット(平仮名ま~ん) (zip形式) (約63MB)