对爬虫代码的测试过程中发现,当爬取的数据过多时会出现错误,然后发现是因为百度贴吧有反爬虫设定,这就导致了无法爬取到过多的内容,如果访问的次数过多就会出现反爬虫,因此再代码的测试上也会出现阻碍,但对与贴吧主页的爬取成功。
在爬取过程中出现的不是验证码,而是一种图片的旋转,通过将图片旋转正了实现验证,我在网上搜索相关的内容没有找到解决的方法,而且涉及到了机器学习,现在没办法解决这一问题。
对爬虫代码的测试过程中发现,当爬取的数据过多时会出现错误,然后发现是因为百度贴吧有反爬虫设定,这就导致了无法爬取到过多的内容,如果访问的次数过多就会出现反爬虫,因此再代码的测试上也会出现阻碍,但对与贴吧主页的爬取成功。
在爬取过程中出现的不是验证码,而是一种图片的旋转,通过将图片旋转正了实现验证,我在网上搜索相关的内容没有找到解决的方法,而且涉及到了机器学习,现在没办法解决这一问题。