今天学习了python爬虫相关的知识,有了一定的了解
网络格式:1.json格式
2.bs4.BeautifulSoup() 提取数据 自动纠正html出错(有限)
函数的参数
解析器:1 lxml解析器 基于C语言开发的 解析速度快,但是需要额外安装,适用于大量的数据进行解析
2 html.parser BeautifulSoup内置的解析器,不需要安装
遍历文档树 搜索文档树(通过制定的标签名,属性名(唯一的)来寻找节点)
3.html子节点 兄弟节点
2.bs4.BeautifulSoup() 提取数据 自动纠正html出错(有限)
函数的参数
解析器:1 lxml解析器 基于C语言开发的 解析速度快,但是需要额外安装,适用于大量的数据进行解析
2 html.parser BeautifulSoup内置的解析器,不需要安装
遍历文档树 搜索文档树(通过制定的标签名,属性名(唯一的)来寻找节点)
3.html子节点 兄弟节点
4.正则表达式:
findall函数:用于查找字符串中所有符合正则表达式的字符串,返回一个列表
例:
import re
python='python2 python3 are all python'
print(re.findall('python',python))
findall函数:用于查找字符串中所有符合正则表达式的字符串,返回一个列表
例:
import re
python='python2 python3 are all python'
print(re.findall('python',python))
输出:['python', 'python', 'python']
5.http:超文本传输线协议
https:安全超文本传输协议 数据加密
5.http:超文本传输线协议
https:安全超文本传输协议 数据加密