利用Google提供的工具Know Your Data和Open Images Dataset,快速获取你想要的图片数据
1. know your data:
Know Your Data是一个工具,以帮助研究人员,工程师,产品团队和政策团队探索数据集,提高数据质量和减轻偏见问题。
- KYD存在的意义:
- 判断我的数据是否损坏,如损坏的图像,乱码的文本,错误的标签,等等。
- 判断我的数据是否敏感。
- 判断我的数据是否有缺口,如缺乏日光照片。
- 判断我的数据是否在不同属性之间平衡?
- 更多操作信息,参考https://knowyourdata.withgoogle.com/docs/
2. open-image dataset
Open Images是一个包含~9M图像的数据集,用图像级标签、对象边界框、对象分割掩模、视觉关系和本地化叙述进行标注。
更多信息,参考https://storage.googleapis.com/openimages/web/factsfigures.html
3. 获取目标数据
目标数据以包含人脸为例。
- 利用KYD获取目标数据的名称,操作如下:
- 打开链接,https://knowyourdata-tfds.withgoogle.com/
- 收集目标图片地址json;
- 利用OpenImage下载目标图片;
- 配置fiftyone环境:pip install fiftyone(详见链接 https://voxel51.com/docs/fiftyone/getting_started/install.html)
- 运行脚本
1. 配置虚拟环境(python版本仅支持3.6-3.9)
conda create -n fiftyone python=3.6
2. 安装fiftyone
pip install fiftyone
3. 安装其他模块
Pip install tqdm
4. 创建虚拟环境: