使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

将数据爬取到内存中

import urllib
import urllib.request
import re
#打开京东网页并且进行读取，解码格式utf-8,ignore小细节自动略过，大大减少出错率
#将数据爬到内存中
#http://www.jd.com
url = "http://www.jd.com"
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat = "<title>(.*?)</title>"
#re.S模式修正符，网页数据往往是多行的，避免多行的影响
print(re.compile(pat,re.S).findall(data))

将数据爬取到硬盘中

import urllib
import urllib.request
import re
url = "http://www.jd.com"
#urlretrieve(网址，文件名filename),由于有转义的作用所以改用为/或者\
res = urllib.request.urlretrieve(url,filename="D:\pythonstudy\pachong\jd1.html")
print(res)

相关阅读:
IIS部署.net core 的程序后，如何查看控制台的日志？
Java中string的编码的详细说明
explicit禁止被用来执行隐式类型转换。仍可以进行显示转换
判断一个IP字符串为有效的IP方法
链接原理
tcp套接字地址
c/c++中的__attribute__((weak))使用
关于multiple definition of 错误说明很详细的文章【转载】
c/c++中结构体中的位域在大小端设备上的内存存储方式----------位域
TCP之数据缓冲区大小及其限制

原文地址：https://www.cnblogs.com/u-damowang1/p/12724139.html