• scrapy的安装


    python --version   2.7.12版本。

    1) 首先在交互模式下测试系统是否安装lxml和OpenSSL

    2) 安装lxml,apt-get install python-lxml,

      lxml是python中XML和HTML相关功能最丰富,最容易使用的一个库,

      lxml不是python自带的包,而是为libxml2h和libxslt库的一个python化的绑定。

    3)安装OpenSSL,apt-get install python-openssl,

      openssl version  -a一般显示的是系统自带的那个openssl

      系统bin下自带的openssl,不能直接被python使用,需要再装这个python包,该版本是2.7版本。

    4)安装python-dev和libevent

      python-dev是linux上开发python比较重要的工具,当需要安装一下源外的python库中,需要调用该包里的api的c/c++文件

            自己写的程序需要连接libpythonXX.(a|so)时,都需要安装这个包

      libevent是一个时间出发的高性能的网络库,很多框架的底层使用libevent。

      apt-get install python-dev

      apt-get install libevent-dev

      

    5) 安装pip,python有两个著名的包管理工具,easy_install.py在2.7中是默认安装的,pip需要手动安装。

    在使用pip和easy_install进行安装的时候,虚拟机的网络代理出现了问题,在terminal内连接不上pypi.python.org,所以通过

      浏览器下载下scrapy1.0.0的版本,python setup.py install进行安装,期间会有很多dependence的lib,都可以通过apt-get

      下载安装。

    下一步:

    1) 配置ssh,直接用git来clone github上的资源

    2) 安装requests

    3) https://www.zhihu.com/question/20899988

    4) 学习lxml 库

    5) 写一个简单的爬虫

  • 相关阅读:
    《转》 在C++中使用TinyXML2解析xml
    基于多种转换语义的图数据库查询
    tomcat内存、连接数优化
    JAVA基础针对自己薄弱环节总结01(循环之前的知识)
    CodeForces
    N年的经验在别人眼里是怎么看的?
    perl install-module.pl DateTime 执行无效问题的解决
    在Linux上使用iptables命令开启对外访问的网络端口
    Linux上安装Bugzilla4.4小记
    在Lotus Notes设置邮件转发
  • 原文地址:https://www.cnblogs.com/-9-8/p/8193293.html
Copyright © 2020-2023  润新知