一直使用xpath和css提取数据,但是有些时候需要处理一些数字,使用正则相对来说更简单些
比如 只想提取a标签里的245,用xpath和css还需要特殊处理
1 page_list = response.xpath(
2 '//div[@class="paging_content"]/div[@class="m-page"]/a[1]/text()').re(r'd{1,}')
3 if page_list and len(page_list) > 0:
4 page_count = int(page_list[0])
page_list提取出来的是一个list,需要转换类型