之前我们从网页中提取重要信息主要是通过自己编写正则表达式完成的,但是如果你觉得正则表达式很好写的话,那你估计不是地球人了,而且很容易出问题。下边要介绍的Beautiful Soup就可以帮你简化这些操作,更加方便的提取网页中信息。
Beautiful Soup 3 目前已经停止开发,官方推荐在现在的项目中使用Beautiful Soup 4
Beautiful Soup是有中文文档的,里边有详细的介绍,文档地址是: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
1. 安装
我是在centos7环境中,所以安装过程比较简单,直接可以通过yum来安装:
sudo yum install python-beautifulsoup4
如果你安装了pip,也可以通过它来下载:
sudo pip install beautifulsoup4
2.快速上手
其实其中文文档已经非常nice了。
点击这里查看: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/