今天依旧是在爬取创造力分析的数据,由于数据有点多,大概有20万,所以明天还会继续爬
这次的爬取数据与上次相比省事很多,可以伪造浏览器设置时间间隔爬取,专利信息较多,有19万,其余的零零散散有1万多
而且内容不统一,主要通过列表获得
而且需要根据不同的类别重新设置
今天依旧是在爬取创造力分析的数据,由于数据有点多,大概有20万,所以明天还会继续爬
这次的爬取数据与上次相比省事很多,可以伪造浏览器设置时间间隔爬取,专利信息较多,有19万,其余的零零散散有1万多
而且内容不统一,主要通过列表获得
而且需要根据不同的类别重新设置