1 创建一个项目
scrapy startproject basicbudejie
2 编写爬虫
import scrapy
class Basicbudejie(scrapy.Spider):
name = "joke"
start_urls = ['http://www.budejie.com/text/']
def parse(self, response):
lines = response.css('div.j-r-list >ul >li')
for li in lines:
username = li.css('a.u-user-name::text').extract()
conent = li.css('div.j-r-list-c-desc a::text').extract()
yield {'username': username, 'content' : conent}
3 运行爬虫
scrapy list 然后,我们可以按照name
来运行爬虫。
scrapy crawl joke -o user.json
设置编码
我们在settings.py
中添加下面的配置即可。
FEED_EXPORT_ENCODING = 'utf-8'