本项目通过Tensorflow对Cifar10数据集进行读写操作。
包括完整代码和详细注释。
- 由60000个图片组成
- 6万个图片中,5万张用于训练,1万张用于测试
- 每个图片是32x32像素
- 所有图片可以分成10类
- 每个图片都有一个标签,标记属于哪一个类
- 测试集中一个类对应1000张图
- 训练集中将5万张图分为5份
- 类之间的图片是互斥的,不存在类别重叠的情况
- Python 3.7.4
- TensorFlow 1.5.0
这个脚本对数据进行下载,并且转换成图片 首先将文件中下面三行的注释移除
DATA_URL = 'http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz'
DATA_DIR = 'data'
download_and_uncompress_tarball(DATA_URL, DATA_DIR)
并且执行
python3 convert_cifar10_image.py
这样脚本会自动下载数据,并且转换成图片。其中训练数据在data/image/train目录下。 如果在线下载比较慢,可以通过百度网盘先将数据集下载到项目根目录下,再执行这个convert_cifar10_image.py脚本,这样会自动跳过从网络上下载。
《详解tensorflow的tf.train.slice_input_producer和tf.train.string_input_producer生成器》