• 【python爬虫】scrapy入门1--环境搭建


    Scrapy Day01

    1)

    进入主目录,右键打开终端,创建项目

    scrapy startproject xicidailiSpyder

    进入项目目录

    cd xicidailiSpyder/

    创建爬虫文件(文件名不能与项目名相同)

    scrapy genspider xicidaili www.xicidaili.com

     

    2)

    Settings.py

     

    取消注释:ROBOTSTXT_OBEY = False

    取消注释:ITEM_PIPELINES

    取消注释:DEFAULT_REQUEST_HEADERS,添加'User-Agent’:用户代理

    设置输出编码(csv中文乱码特效药):FEED_EXPORT_ENCODING = 'utf-8-sig'

     

    3)

    爬虫文件名.py

    修改:start_urls = ['http://www.xicidaili.com/nt/6']

    修改:

    def parse(self, response):

            # pass

            selectors=response.xpath('//tr')

            for selector in selectors:

                ip=selector.xpath('./td[2]/text()').get()

                port=selector.xpath('./td[3]/text()').get()

                # print(ip,port)

                items ={

                    'ip':ip,

                    'port':port

                    }

                # yield:跟字典

                yield items

            next_page=response.xpath("//a[@class='next_page']/@href").get()

            if next_page:

                print(next_page)

                next_url=response.urljoin(next_page)

                # 发出请求 Request,callback 回调函数 将请求得到的响应交给自己处理 

                yield scrapy.Request(next_url,callback=self.parse)

    4)

    开始爬虫

    scrapy crawl xicidaili 

    导出数据格式

    scrapy crawl xicidaili -o ip.json

    scrapy crawl xicidaili -o ip.csv

     

    注意这3个命令都是项目相关的,只能用于已存在的项目。

     

    其他:

    1、谷歌插件:XPath Helper

    2、pip install scrapy,依赖包twisted错误,第三方库离线下载whl(搜索twisted):https://pypi.org/search/?q=twisted&o=

    3、硬件测试命令:scrapy bench,错误需要安装:pip install pywin32

  • 相关阅读:
    Nginx的Mainline version、Stable version、Legacy version的版本区别
    十个程序员必备的网站推荐
    各大OJ题目分类
    ubuntu 12 安装bcm 43142无线网卡驱动
    unp.h
    Linux优秀软件整理
    陈皓一起写Makefile 概述
    开源资源目录
    (三)鸟哥Linux读书笔记
    CSS3实现选项卡
  • 原文地址:https://www.cnblogs.com/hightech/p/12839685.html
Copyright © 2020-2023  润新知