由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧!
20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛,
这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。
由于一个文件的末尾多出了几个空行,导致抓取链接的网页重复,再加上数据量大,各种原因吧!
20万数据洗成了两万,不完全统计某些数据重复数高达100条,爬虫这一天是白跑了,痛定思痛,
这种错误以后可不能再犯了。这不仅耽误自己时间,也对不起人家网站呐。