分类
- 爬虫分为定向与不定向
基本操作
- 简单来说就是通过指定的url取出数据
- 发送http请求:
- 基于正则表达式匹配获取内容
- 用BeautifulSoup
可以先用requests获取网页内容
之后用BeautifulSoup解析
BeautifulSoup(text,http.parser)
之后可以用find寻找对应项,get可以得到对应属性,text可以得到文本
可以先用requests获取网页内容
之后用BeautifulSoup解析
BeautifulSoup(text,http.parser)
之后可以用find寻找对应项,get可以得到对应属性,text可以得到文本