构建新 AI 解决方案或开发产品的最难的部分不是 AI 本身或者算法,而是数据的收集和标记。
经典数据集:
MNIST | CIFAR | PASCAL VOC | MS COCO | LSUN | SVHN
1. MS COCO
COCO是一个大型的、丰富的物体检测,分割和字幕数据集。它有几个特点:
· 对象分割;
· 在上下文中可识别;
· 超像素分割;
· 330K图像(> 200K标记);
· 150万个对象实例;
· 80个对象类别;
· 91个类别;
· 每张图片5个字幕;
· 有关键点的250,000人;
大小:25 GB(压缩)
记录数量: 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。
参考:
2. 25 Open Datasets for Deep Learning Every Data Scientist Must Work With