scrapy持久化到Excel表格

前提条件：

防止乱码产生

ITEM_PIPELINES = {
   'xpc.pipelines.ExcelPipeline': 300,
}

方法一

1、安装openpyxl

conda install openpyxl

2、pipline

from openpyxl import Workbook


class ExcelPipeline(object):
    def __init__(self):
        # 创建excel, 填写表头
        self.wb = Workbook()
        self.ws = self.wb.active
        # 设置表头
        self.ws.append(['ID', '标题', 'URL'])

    def process_item(self, item, spider):
        # 把数据的每一项整理出来
        line = [item['pid'], item['title'], item['src']]
        # 将数据以行的形式添加到xlsx中
        self.ws.append(line)
        # 保存xlsx文件中
        self.wb.save('work.xlsx')
        return item

3、setting

ITEM_PIPELINES = {
   'xpc.pipelines.ExcelPipeline': 300,
}

方法二

scrapy crawl work -o work.csv

用Excel文件打开csv，我的会出现乱码，暂时未解决

相关阅读:
Java经典习题7
Java经典习题6
java经典习题5
前后端分离开发——模拟数据mock.js
微信网页第三方登录原理
TP5常量
TP5
健忘的正则
JS正则
apache配置修改

原文地址：https://www.cnblogs.com/wt7018/p/11868105.html