采集淘宝店铺的评论,要分析淘宝提供的接口,或是淘宝不提供,但是我们能利用的URL规则来采集;
采集淘宝店铺的所有评论内容,和采集某一个商品的评论内容是不一样的规则;
采集淘宝天猫商品的评论内容很简单,我在之前已经介绍过了,http://www.cnblogs.com/wangtongphp/archive/2013/04/11/3014198.html ;
在这里研究的是店铺的所有评论内容,一样,评论不在源码里,所以要找到规则才能做;
规则是:http://rate.taobao.com/member_rate.htm?user_id=用户ID&page=3;
后面还有些参数: &rater=0&content=1&direction=0&identity=1&from=rate&timeLine=-210&result=1
这个页面即评论内容;
举例说明:
http://shop103612611.taobao.com/ 这是店铺地址
http://rate.taobao.com/user-rate-912818656.htm 这是店铺的评论页的地址,每页80多条;
http://rate.taobao.com/member_rate.htm?user_id=912818656 ;这是店铺评论的json信息,每页40条;
在所有的页面源码里都有
<meta name="microscope-data" content="pageId=144068251;prototypeId=1;siteCategory=1;siteInstanceId=126653390;shopId=103612611;userId=912818656"/>这样一个userID在里面;
组合即可