性能对比
爬取方法
|
性 能
|
使用难度
|
安装难度
|
正则表达式
|
快
|
困难
|
简单(内置模块)
|
BeautifulSoup
|
慢
|
简单
|
简单
|
Lxml
|
快
|
简单
|
相对困难
|
当网页结构简单并且想要避免额外依赖(不需要安装库),使用正则表达式更为合适。当需要爬取数据量较少时,使用较慢的BeautifulSoup也可以的。当数据量大时,需要追求效益时,Lxml时最好选择。