图片管道启用: item中必须包含image_urls和images属性 image_urls中必须是列表,每个元素是一个带有http的链接 images里面数据任意,经过图片管道后会被重新赋值 图片管道必须被启用 配置文件中的选项: ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline':2, # 'images.pipelines.ImagesPipeline': 1, } IMAGES_STORE = '图片存储路径' IMAGES_MIN_HEIGHT = 1000 # 图片最小高度限制 IMAGES_MIN_WIDTH = 1200 # 图片最小宽度限制 IMAGES_EXPIRES = 90 # 失效时间,单位:天 IMAGES_THUMBS = { # 设置缩略图,可以多个键值对 'small':(50,50), 'big':(600,600) } 文件管道总结 文件管道启用: item中必须包含file_urls和files属性 file_urls中必须是列表,每个元素是一个带有http的链接 files里面数据任意,经过文件管道后会被重新赋值 文件管道必须被启用 配置文件中的选项: 课程中涉及的知识点 ITEM_PIPELINES = { # 'images.pipelines.ImagesPipeline': 1, 'scrapy.pipelines.files.FilesPipeline':2, } FILES_STORE = '文件存储路径' 1、 Xpath函数,contains(),前者是源,例如text(),@src;后者是比较的字 符,例如http 2、 if判断,如果问号在字符串中,表达式 if '?' in 字符串 3、 列表操作,往列表中添加一个值,列表名.append(值) 4、列表操作,for循环列表中的每个值,for i in 列表 5、管道文件的位置,如下 from scrapy.pipelines.images import ImagesPipeline from scrapy.pipelines.files import FilesPipeline from scrapy.pipelines.media import MediaPipeline