一、什么是爬虫?
可以理解为一只蜘蛛,在不同的网页上爬来爬去,获取我们需要的资源
二、Python如何访问互联网
urllib(一个包)=url(网页地址)+lib()
第一部分:protocol://
第二部分:网址
第三部分:具体资源目录
三、一个例子爬出网页中的前端代码
1 #爬出网页中的内容 2 >>> import urllib.request 3 >>> response=urllib.request.urlopen("http://www.fishc.com") 4 >>> html=response.read() 5 >>> print(html) 6 #打印粗来的是二进制的一堆代码,那么如果想打印出同网页一样的规范代码,那么就需要解码。下面一行代码就可以了。 7 >>> html=html.decode('utf-8') 8 >>> print(html)