• python爬虫-1环境安装


    1.基本配置的安装Linux

    1.1Mongodb

    执行安装命令:

    sudo apt-get install mongodb

     通过"pgrep mongo -l "查看进程是否已经启动。

    运行“locate mongo”命令查看系统默认把mongo装到了哪里。

    输入mongo进入数据库:

    如果是系统非正常关闭,这样启动会报错,由于mongodb自动被锁上了,这是需要进入mongodb数据库文件所在的目录(/var/lib/mongodb/),删除目录中的mongodb.lock文件,然后再进行上述操作。

    关闭/启动:sudo service mongodb stop   sudo service mongodb start

    重新启动服务$ mongod –auth

    创建连接用户$ mongo

        >use admin

        switched to db admin

        >db.addUser("root","123456")

    这样能创建最高权限的用户,修改文件,执行:sudo vi /etc/mongo.conf

    修改net部分,以允许远程访问:

    net:

         port:27017

         bindIp:0.0.0.0

    添加权限认证:

    security:

        authorization:enabled

    之后重启服务器:sudo service mongod restart


    1.2 Redis 安装

    sudo apt-get -y install redis-server

    输入redis-cli进入Redis命令模式:

    进行操作:

    设置可远程连接:修改/etc/redis/redis.conf 注释的 bind 127.0.0.1

    密码设置:取消requirepass  foobared注释

    foobared为当前密码,可自行修改。

    重启服务器:sudo /etc/init.d/redis-server restart

    停止服务器:sudo /etc/init.d/redis-server stop

    启动服务器:sudo /etc/init.d/redis-server start


    1.3 三方Python连接库

    数据库:

    pip3 install pymysql

    pip3 install pymongo

    pip3 install redis

    web库:Flask,pip3 install flask

    实例:

    from flask import Flask
    app = Flask(__name__)
    
    
    @app.route('/')
    def hello():
        return '<h1/>hello</h1>'
    
    
    if __name__ == "__main__":
        app.run()
    

    后续会利用Flask+Redis维护动态代理池和Cookies池

    Tornado:一个异步的web框架,非阻塞I/O流,支持成千上万开放连接,效率高。

    pip3 install tornado


    1.4 爬虫库的安装

    Scrapy:conda install Scrapy

    Scrapy-Redis:分布式爬虫扩展模块

  • 相关阅读:
    使用ueditor实现多图片上传案例——Servlet层(UploadServlet)
    使用ueditor实现多图片上传案例——截取字符串层Util(SubString_text)
    [转载]oracle删除数据后的恢复
    [转载]oracle删除数据后的恢复
    为什么在定义hashcode时要使用31这个数呢?
    为什么在定义hashcode时要使用31这个数呢?
    [转载]hashCode和equals
    [转载]hashCode和equals
    Oracle HINT的用法
    Oracle HINT的用法
  • 原文地址:https://www.cnblogs.com/onenoteone/p/12441698.html
Copyright © 2020-2023  润新知