• Scrapy计划表


    第一步

    • Scrapy 一览:理解Scrapy是什么,他能帮到你什么
    • 安装指南:在电脑上安装Scrapy
    • Scrapy 教程:编写第一个Scrapy项目
    • 示例:通过前人写好的Scrapy项目进行学习

    基础概念

    • 命令行工具:学习使用命令行工具管理Scrapy项目
    • 爬虫:编写规则爬取网站
    • 选择器:使用XPath从网页中抽取数据
    • Scrapy shell:在一个交互环境中测试抽取代码
    • Items:定义要抓取的数据字段
    • Item 加载器
    • Item 管道
    • Post处理和数据存储.
    • 信息流导出:使用不同的格式输出和存储抓取的数据
    • Requests and Responses:理解用于HTTP请求和响应的类
    • 链接抽取器
    • 配置:学习怎样配置Scrapy,查看所有可用配置
    • 异常:查看所有可用异常及其含义

    内建服务

    • 日志记录:学习如何在Scrapy项目中使用Python的内建日志模块
    • 统计收集:收集Scrapy爬虫的统计信息
    • 发送邮件:当某些事件发生时发送邮件提醒
    • Telnet 控制台:使用后Python控制台检视一整正在运行的爬虫
    • Web 服务:使用Web服务管理和控制爬虫

    特定问题的解决

    • FAQ(常见问题)
    • 爬虫调试:学习如何调试scrapy爬虫吃的一般问题
    • Spiders Contracts
    • 一般性练习
    • Broad Crawls
    • 使用Firefox进行数据抓取
    • 使用Firebug
    • Debug内存泄漏
    • 下载和处理文件、图片
    • 爬虫部署
    • AutoThrottle extension
    • 压力测:测试爬虫在实际机器上的性能表现
    • 任务暂停和恢复

    扩展Scrapy

    • 架构概览:理解Scrapy的架构
    • 下载器中间件:定制网页请求和下载
    • 爬虫中间件 :定制爬虫的输入和输出
    • 扩展:使用定制功能扩展Scrapy
    • 核心 API:在扩展和中间件中使用一扩展Scrapy的功能
    • 信号:查看所有可用的信号及怎样使用它们
    • 数据导出器:快速导出抓取的数据到文件(XML,CSV等等)
  • 相关阅读:
    SharedPreferences.Editor 的apply()与commit()方法的区别
    Android 解决方法数 65536 (65k) 限制
    Android RatingBar 自定义样式
    自定义 checkbox 新玩法 ?
    Android 透明度百分比对应的 十六进制
    Linux文件权限rwx简单了解
    Linux学习之Vim使用
    Linux学习之用户管理
    Linux学习之sudo命令
    一元稀疏多项式加法运算
  • 原文地址:https://www.cnblogs.com/taceywong/p/7602153.html
Copyright © 2020-2023  润新知