• python爬虫


    爬虫

    以下内容纯自己理解的

    爬网站时要是内容能被ctrl f 找到那就是静态网页就可以直接进行爬取,
    要是没有就是动态网页,要分析json等响应最后转换成python能懂得语言,解析数据 字典

    scrapy框架步骤

    1. scrapy startproject 项目名称
    2. scrapy genspider 爬虫名字 域名 爬虫名字不能是数字开头的最好是英文的
    3. 编写爬虫(敲代码)
    4. 运行爬虫 scrapy crawl 爬虫名字

    例子

    1. 创建项目框架scrapy startproject jobspider
    2. 创建爬虫scrapy genspider job 51job.com
    3. 编写爬虫
    4. 运行爬虫 scrapy crawl job

    循环的代码提取内容

    book = []
    for name,author in zip(name,author):
    book.append({'name': name,'author':author})
    return book

    scrapy crawl 项目名称(qd)-o book.csv/xml/json能拿到这些格式

    setting 里面要开启好多东西 包括pipelines
    PIPELINES的介绍。。。
    yield的使用,数据的操作

    xpath('内容提取信息的规则').extract()是获取数据 前面的是返回来的响应

    另一个爬虫框架 crawlscrapy
    scrapy genspider -t crawl 爬虫名字 域名

    和scrapy的区别是多了一个rules规则 这里是获取响应并且回传到parse_item 就相当于parse那个函数,同时可以进行多次的rules,响应返回来再做处理

    图片的便捷取出方法
    image

    middlewares 动态的ua
    动态代理

  • 相关阅读:
    10个强大的Apache开源模块
    Flume日志收集(转载)
    hbase安装配置(整合到hadoop)
    Hadoop与HBase兼容版本汇总
    关于Mysql Proxy LUA实现Mysql读写分离
    Redis发布了集群版3.0.0 beta
    Spring MVC 学习之 400 错误
    Mahout安装(Hadoop 1.2.1 版本)
    【Android】性能优化
    【Android】asynchronous http client
  • 原文地址:https://www.cnblogs.com/wkjava/p/12860216.html
Copyright © 2020-2023  润新知