Chainer:MNISTの手書き数字は使えそう


2017年 03月 17日

sklearnの8×8ドットの手書き文字を使うのをChainer:iris以外のデータでDeep Learning で紹介したが、ここで最初の48文字の画像を示す。
digitsdisp48.png これは、以下の数字を示しているのだが、相当無理があろう。
[[0 1 2 3 4 5 6 7]
[8 9 0 1 2 3 4 5]
[6 7 8 9 0 1 2 3]
[4 5 6 7 8 9 0 9]
[5 5 6 5 0 9 8 9]
[8 4 1 7 7 3 5 1]]

ということで、もっと良い数字画像データセットを使うことにする。

よく使われるものに、THE MNIST DATABASE of handwritten digits がある。
The MNIST database (Mixed National Institute of Standards and Technology database) は、28×28の手書き数字のデータ・セットで、トレーニング用が6万文字、テスト用が1万文字ある大規模なものである。
全部使うとシステムが重くなったりするので、一部だけを利用することも多い。

とりあえず、トレーニングセットの最初の48文字を上と同じ形式で示す。
mnistdisp48.png
[[5 0 4 1 9 2 1 3]
[1 4 3 5 3 6 1 7]
[2 8 6 9 4 0 9 1]
[1 2 4 3 2 7 3 8]
[6 9 0 5 6 0 7 6]
[1 8 7 9 3 9 8 5]]
全然画像の細かさが違うのが分かるだろう。

さて、これをどうやって読み込み、並べて表示したプログラムについては、次回に説明しよう。