• linux配置爬虫环境


    #宝塔面板安装python3

    #安装依赖包
    yum -y groupinstall "Development tools"
    yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
    #下载 Python3
    wget https://www.python.org/ftp/python/3.7.7/Python-3.7.7.tar.xz
    #创建文件夹
    mkdir /usr/local/python3 
    #解压编译安装
    tar -xvJf  Python-3.7.7.tar.xz
    cd Python-3.7.7
    ./configure --prefix=/usr/local/python3
    make && make install
    #给个软链
    ln -s /usr/local/python3/bin/python3 /usr/bin/python3
    ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

    #安装Chrome

    sudo yum localinstall google-chrome-stable_current_x86_64.rpm
    

    #更换pip源

    -i https://pypi.tuna.tsinghua.edu.cn/simple/

    #下载并安装Chromedriver

    http://npm.taobao.org/mirrors/chromedriver/2.41/chromedriver_linux64.zip

    解压后上传到usr/bin目录下

    *可选:给予执行权限,

    chmod +x /usr/bin/chromedriver

    #安装phantomjs

     http://phantomjs.org/download.html官网下载文件,

    本地解压后文件夹重命名成 phantomjs,然后通过宝塔上传到服务器的 usr/local 目录,

    yum -y install fontconfig #安装依赖环境
    ln -s /usr/local/phantomjs/bin/phantomjs /usr/bin/  #建立软连接

     #报错:unknown error: DevToolsActivePort file doesn't exist

    Linux下使用root账户操作Chrome,需要增加一些设置

    from selenium.webdriver.chrome.options import Options
    from selenium import webdriver
    chrome_options = Options()
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage') #让Chrome在root权限下跑
    chrome_options.add_argument('--headless') #不用打开图形界面
    browser = webdriver.Chrome(chrome_options=chrome_options)

     #报错:Max retries exceeded with url

    requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数
    s = requests.session()
    s.keep_alive = False # 关闭多余连接
    s.get(url) # 你需要的网址

     #putty连接容易断开,命令执行中断

    可以使用screen

    yum install screen

    然后执行 -S [窗口名字] 就可以新建命令窗口,独立运行,客户端断开也不影响命令执行

    screen -S david

    再次连接上服务器,继续操作刚刚的窗口

    screen -ls #列出所有窗口
    screen -r 12865 #重新连接指定窗口
  • 相关阅读:
    zabbix 4.0 监控磁盘IO的实施笔记
    梅登黑德定位系统
    sdrplay sdr 支持的sample rate
    记录一下几个中移动可以PING的检测地址及部份DNS设置
    升级mariadb 10后目录权限问题的笔记
    C#单独启动进程的几种方式及使用特点(使用不当导致端口无法释放)
    SqlBulkCopy批量插入数据时,不执行触发器和约束的解决方法
    C# 处理大量数据的技巧
    C# 几种集合性能比较
    WPF学习网址整理
  • 原文地址:https://www.cnblogs.com/newgold/p/13053009.html
Copyright © 2020-2023  润新知