关于京东商城,新蛋网等网站价格的抓取,至于评论,新闻等这些的抓取就直接只是数据的抓取。
抓取价格也比较简单,与平常数据采集一样,只是多了对价格图片的分析。
具体做法:
1.通过数据采集开发,对价格图片地址进行采集。
2.将图片读成流,对像素进行过滤分析(主要过滤杂项干扰像素)。
数据模型无非就是"Y,0,1,2,3,4,5,6,7,8,9",通过程序对这些数据形成进行模拟确定这些值所对应的像素形成来最终确定值。
3.采用多线程多代理进行快速采集。
主要目的是为了对某个商品进行历史价格的跟踪。
由于价格多变,为了不买到贵的价格,用户真有这种需求