※現在、ブログ記事を移行中のため一部表示が崩れる場合がございます。
順次修正対応にあたっておりますので何卒ご了承いただけますよう、お願い致します。

カラー画像のデータセットを探し求めて


2017年 04月 28日

MNISTは、グレースケールの手書き数字のデータ・セットだった。
でも、もう飽きたので、写真などでテストすることにしよう。

といっても、自分でディープラーニング用の画像データを集めるのは気が遠くなるほど面倒だ。

それで、まず、ディープラーニング用のデータ・セットでどのようなものがあるか探ってみた。

http://deeplearning.net/datasets/

そうすると、こちらが探そうとしていることが、そのままURLになっているのが見つかった(笑)

These datasets can be used for benchmarking deep learning algorithms:

という文の下に、自由に使えそうなデータセットが並んでいるのだ。
MNIST関連は飛ばして、色々な写真などのデータセットらしいのを探そう。

CIFAR-10
これは、元トロント大、現在GoogleのAlex Krizhevsky氏が配布しているものだ。
サイトは、今もトロント大にあり、データ収集は
Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton の3名が行ったとある。
最後の Geoffrey Hinton
は、the godfather of deep learning として知られ、Google/DeepMind の AlphaGo にも関係している人なのだ。
画像は32×32とかなりコンパクトで、学習用に50000枚、テスト用に10000枚用意されている。
これは外せないな。

Caltech 101
こちらは、その名の通り、カルテック、カリフォルニア工科大学が用意してくれている画像データセットだ。
101種類の画像で、サイズが300×200程度という。各種類40から500枚くらいで、かなりバラバラである。

その他にも色々あるので、あとは自分で見てみよう。

さて、どれを利用してみるか、それが問題だ。

mnistのデータセットは、こんな感じで読み込んだのだった。

train, test = chainer.datasets.get_mnist()
次のデータセットも、同じように読み込めれば楽である。
ということで、こんな感じに読み込めそうな、つまりchainerがサポートしているデータセットを探した。

Docs ≫ Chainer Reference Manual ≫ Dataset examples

この中が、General datasets と Concrete datasets に別れており、Concrete datasets の中にmnistがあったのだ。
mnist以外では、CIFAR10/100 と Pen Tree Bank があったが、後者は英文に関するデータセットで今考えているものとは違う。

ということで、すんなり、CIFARを選ぶことに決定した。
次回から、実際にデータを読み込んで、あれこれやってみよう。