NDLラボへようこそ。
ここは、国立国会図書館の実験的なサービスを提供するサイトです。

文字画像データセット(平仮名73文字版)を試験公開しました

国立国会図書館デジタルコレクションのインターネット公開資料から、平仮名の文字画像を切り出したデータセットを試験公開しました。画像形式はPNGで、計8万画像あります。

文字画像の例:

「あ」1900年1900_754949_0023.png 「あ」1910年1910_808569_0198.png 「あ」1920年1920_958609_0028.png 「あ」1930年1930_1873255_0111.png 「あ」1940年1940_1239059_0066.png
「い」1900年1900_808821_0042.png 「い」1910年1910_839986_0036.png 「い」1920年1920_906916_0039.png 「い」1930年1930_1175565_0024.png 「い」1940年1940_1873816_0084.png
「う」1900年1900_890806_0066.png 「う」1910年1910_813236_0091.png 「う」1920年1920_961711_0105.png 「う」1930年1930_1176246_0041.png 「う」1940年1940_1026632_0029.png

こちらからダウンロードできます(どの形式でも内容は同じです)。

※ダウンロードがうまく行かない場合

内訳は次のとおりです。

文字 ディレクトリ 画像数 文字 ディレクトリ 画像数 文字 ディレクトリ 画像数 文字 ディレクトリ 画像数
U3042 1,208 U3059 1,282 U306D 1,126 U3080 1,058
U3044 1,122 U305A 1,046 U306E 1,160 U3081 1,233
U3046 1,148 U305B 1,165 U306F 1,247 U3082 1,187
U3048 1,077 U305C 1,115 U3070 1,105 U3084 1,285
U304A 1,283 U305D 1,285 U3071 262 U3086 1,282
U304B 1,259 U305E 1,066 U3072 1,074 U3088 1,166
U304C 1,200 U305F 1,285 U3073 1,045 U3089 1,114
U304D 1,121 U3060 1,116 U3074 126 U308A 1,244
U304E 1,091 U3061 1,052 U3075 1,285 U308B 1,190
U304F 1,266 U3062 1,132 U3076 1,149 U308C 1,238
U3050 1,043 U3064 1,142 U3077 112 U308D 1,069
U3051 1,155 U3065 1,080 U3078 1,114 U308F 1,283
U3052 1,058 U3066 1,213 U3079 1,109 U3090 1,053
U3053 1,115 U3067 1,178 U307A 268 U3091 1,030
U3054 1,078 U3068 1,184 U307B 1,115 U3092 1,254
U3055 1,261 U3069 1,134 U307C 1,044 U3093 1,285
U3056 1,070 U306A 1,233 U307D 261 (計)   80,000
U3057 1,285 U306B 1,260 U307E 1,285      
U3058 1,099 U306C 1,093 U307F 1,142      

データセットの活用例として、機械学習による自動分類プログラムを試作しました。オープンソースの深層学習フレームワークChainerのサンプルプログラムを改変したものです。Chainerの実行環境の他、Pillowパッケージが必要です。


サンプルプログラムの実行手順の例:
$ wget http://lab.ndl.go.jp/dataset/hiragana73.tar.gz
$ tar xfz hiragana73.tar.gz
$ wget http://lab.ndl.go.jp/dataset/example/train_ndlkana.tar.gz
$ tar xfz train_ndlkana.tar.gz
$ python example/ndlkana/train.py -d hiragana73
※ダウンロードがうまく行かない場合:

利用者側のWebセキュリティ等により、一括のダウンロードがうまく行かない場合があります。その場合、次の分割データのダウンロードをお試し下さい。

DR