ps:下面部分内容摘自官方文档
来自bs4的简介
Beautiful Soup是一个可以提取html或者xml这种具有格式的文件句柄或者字符串的python三方库,它可以在短时间内通过转换器对符合提取条件的文件进行批量的修改、文件指南等操作;
安装Beautiful Soup
因为Beautiful Soup是通过PyPi发布,可以通过easy_install BeautifulSoup4或者pip install BeautifulSoup4来安装,笔者这里使用的pip安装的,安装过程如果比较缓慢可以使用pip install BeautifulSoup4 -i [指定镜像源,如http://pypi.doubanio.com/simple/] 的方式进行安装,可以避免官网下载速度比较慢的情况;还有的系统如Debian或者Ubuntu新版本中使用自带的包管理器就可以安装;当然也可以下载源码包的方式等
安装解析器
也有多种方式,这里也可以使用pip install lxml命令安装,注意这个lxml是众多解析中的一个,但是也是比较推荐使用的一个
简单的使用
例如:
# 首先我需要引入BeautifulSoup包
from bs4 import BeautifulSoup
# 获取一个BeautifulSoup的对象soup,传入的参数可以是一个文件句柄或者字符串
soup = BeautifulSoup('<a id="link_tag">这是一个html标签</a>')
# 为soup指定解析器,默认不指定的话会自动选择最合适的解析器
soup = BeautifulSoup('<a id="link_tag">这是一个html标签</a>','xml')
# 指定后的soup:
<?xml version="1.0" encoding="utf-8"?>
<a id="link_tag">这是一个html标签</a>
# 默认的soup:
<html><body><a id="link_tag">这是一个html标签</a></body></html>