第三课 - 模块Spider
把英文单词翻译成中文试试看,看不懂的选项,都翻译
Spider选项卡里的Application Login一栏:碰到表单怎么做?改成Automatically submit these credentials(自动提交这些凭证):用户名和密码写一个默认的都是admin
Spider Status:爬取的状态
requests made 提出的请求
bytes transferred 传送的字节数
requests queued 请求队列
forms queued 队列形式
火狐浏览器,点击选项,点击常规,划到最后,点击网络设置,选择不使用代理,火狐浏览器就可正常访问
下面再来实践一次:爬行网址www.jwc.jyu.edu.cn/,网站选取的不好,下面就当回顾复习一下流程
1、
2、
3、
4、
5、再去Target查看前,先设置下Filter显示选项,第二课里有要设置哪些。爬出来的东西啥也没有
Spider选项的一些设置:
Number of threads(线程的数量):爬取小网站,2或3即可,大的网站,设置成10,非常大,传输速度快的网站。设置成100