python爬虫准备知识---2、为什么选择python来进行爬虫
一、总结
一句话总结:
c和c++运行效率很高,但是学习和开发成本很大;java的语言代码量很大,一个爬虫程序会随着网址及内容的改变而需要重构,重构时需要花费很多的成本;php并发处理能力弱,速度和效率都达不到爬虫的要求。
1、什么是Urllib?
Urllib是Python内置的HTTP请求库,可以用来做爬虫,但是requests更好用
urlib.request 请求模块
urlib.error 异常处理模块
urllib.parse url解析模块
urlib.robotparser robots.txt解析模块
2、response headers和request headers分别是做什么的?
request headers是浏览器告诉服务器,我传过来的数据是什么样,你要怎么解析
response headers是服务器传回来的response的信息
3、with open(...) as ...?
但由于文件读写时都可能产生IOError,为了保证无论是否出错都能正确地关闭文件,我们用try...finally来实现:python 简化了改写法,即用 with open(...) as...;
二、内容在总结中
博客对应课程的视频位置: