• python爬虫-1环境安装


    1.基本配置的安装Linux

    1.1Mongodb

    执行安装命令:

    sudo apt-get install mongodb

     通过"pgrep mongo -l "查看进程是否已经启动。

    运行“locate mongo”命令查看系统默认把mongo装到了哪里。

    输入mongo进入数据库:

    如果是系统非正常关闭,这样启动会报错,由于mongodb自动被锁上了,这是需要进入mongodb数据库文件所在的目录(/var/lib/mongodb/),删除目录中的mongodb.lock文件,然后再进行上述操作。

    关闭/启动:sudo service mongodb stop   sudo service mongodb start

    重新启动服务$ mongod –auth

    创建连接用户$ mongo

        >use admin

        switched to db admin

        >db.addUser("root","123456")

    这样能创建最高权限的用户,修改文件,执行:sudo vi /etc/mongo.conf

    修改net部分,以允许远程访问:

    net:

         port:27017

         bindIp:0.0.0.0

    添加权限认证:

    security:

        authorization:enabled

    之后重启服务器:sudo service mongod restart


    1.2 Redis 安装

    sudo apt-get -y install redis-server

    输入redis-cli进入Redis命令模式:

    进行操作:

    设置可远程连接:修改/etc/redis/redis.conf 注释的 bind 127.0.0.1

    密码设置:取消requirepass  foobared注释

    foobared为当前密码,可自行修改。

    重启服务器:sudo /etc/init.d/redis-server restart

    停止服务器:sudo /etc/init.d/redis-server stop

    启动服务器:sudo /etc/init.d/redis-server start


    1.3 三方Python连接库

    数据库:

    pip3 install pymysql

    pip3 install pymongo

    pip3 install redis

    web库:Flask,pip3 install flask

    实例:

    from flask import Flask
    app = Flask(__name__)
    
    
    @app.route('/')
    def hello():
        return '<h1/>hello</h1>'
    
    
    if __name__ == "__main__":
        app.run()
    

    后续会利用Flask+Redis维护动态代理池和Cookies池

    Tornado:一个异步的web框架,非阻塞I/O流,支持成千上万开放连接,效率高。

    pip3 install tornado


    1.4 爬虫库的安装

    Scrapy:conda install Scrapy

    Scrapy-Redis:分布式爬虫扩展模块

  • 相关阅读:
    逆向入门之路1 关于逆向工程
    EC笔记:第三部分:14、在资源管理类中小心Copying行为
    vuex最简单、最详细的入门文档
    前端加密的几种常见方式
    NAS星云链 入门之从零开发第一个DAPP
    chrome 不支持12px以下字体为题的解决
    input checkbox 多选 验证
    你对javascript的原生操作或者工具了解多少呢?
    ionic2-键盘覆盖输入框和返回键问题解决方案
    ionic2 手风琴效果
  • 原文地址:https://www.cnblogs.com/onenoteone/p/12441698.html
Copyright © 2020-2023  润新知