• 网络爬虫(一):配置selenium、pycharm(windows平台)


    最近在学习爬虫的编写,使用selenium模块时候,遇到了很多坑,本blog的目的是总结一下遇到的坑和解决办法,以便后来人少走弯路!

    以下介绍均以Python3.x为基准进行,基于windows平台的。

    1. Selenium配置

    我们在做爬虫的时候,避免不了要使用selenium模块,但是它不是python的标准库,所以需要自行安装。
    那么如何安装selenium呢,这时候就用到了pip这个工具。

    1. 首先我们需要下载pip:

    所谓pip,即Python Install Packet(python安装包)。

    mark

    2. 然后我们解压下载的pip,打开cmd命令控制台,cd到刚才解压的目录:

    mark

    可以看到,python不是内部命令,执行失败;这是由于python的可执行文件路径没有加入到windows的环境变量里。

    3. 设置环境变量:

    按照如下的顺序:

    计算机 -> 属性 -> 高级系统设置 -> 高级 -> 环境变量 -> path

    mark
    mark


    将python.exe所在路径添加到path中(注意,不同路径间的隔离使用;)

    mark

    4. 验证pip是否安装成功

    使用如下命令(使用此命令之前,同样需要将pip所在的目录加入到环境变量中,默认的pip路径为python.exe同目录文件夹Scripts下):

    • pip list

    mark

    5. 安装selenium模块

    采用如下命令:

    • pip install selenium

    mark

    至此,selenium模块算是安装完成了

    6. 配置selenium使其支持不同浏览器

    开发中,我们一般采用chrome或firefox,因此我以这两款为准进行讲解。
    当我们安装完成selenium模块,准备使用其进行编码时,突然发现,又有问题出现了:

    mark
    发生以上原因是因为: 缺少Chrome/Firefox的webdriver驱动。

    驱动的下载地址:

    将下载好的驱动解压,然后放到与python.exe同一个目录中;

    到此处,你可以试试如下代码:

    # coding = utf-8
    from time import sleep
    from selenium import webdriver
    
    browser = webdriver.Firefox()
    
    browser.get(r"http://www.baidu.com")
    browser.find_element_by_id("kw").send_keys("python")
    browser.find_element_by_id("su").click()
    sleep(5)
    browser.quit()
    

    将会打开一个新的firefox窗口,算是selenium配置成功。

    2. Pycharm 2017.3破解与使用

    Pycharm是玩python、web开发、爬虫等等必不可少的工具,其优秀性不必多言,谁用谁知道!

    1. 下载并安装 Pycharm2017

    mark
    安装不用多说了吧!

    2. 破解pycharm


    进入Pycharm, 点击Help -> Register

    mark

    然后,去下载一个破解软件:

    按照下图进行设置:

    mark

    输入完成后,点击Active,一切都ok了!

    另外,破解的专业网站地址:

    3. 注册完成后,我们将开始我们第一个项目:

    # coding = utf-8
    from time import sleep
    from selenium import webdriver
    
    browser = webdriver.Firefox()
    
    browser.get(r"http://www.baidu.com")
    browser.find_element_by_id("kw").send_keys("python")
    browser.find_element_by_id("su").click()
    sleep(5)
    browser.quit()
    

    运行过程中,可能会出现如下的错误:
    mark
    mark

    虽然我们安装了selenium,但是Pycharm找不到这个模块(包),这怎么回事呢?
    原因就是我们使用的python 解释器的问题(未使用系统默认的解释器)

    可做如下修改:

    • File -> Settings -> Project coding -> Project interpreter

    选择所需要的Python解释器。
    mark

    mark

    如下拉列表中没有对应的系统Python解释器,我们可以自己添加:

    mark
    mark

    设置完以上之后,重新回到代码区运行上述代码,一切都ok了!

    至此,大功告成!!!

  • 相关阅读:
    js实现完美身份证号有效性验证
    jQuery cookie操作
    脚本化HTTP
    if (HttpContext.Current.User.Identity.IsAuthenticated) 权限验证总是true
    装了appserv之后,浏览器中访问localhost加载不了
    rdlc报表的导出及预览时表头
    oracle中的to_number在mysql中的转换
    GIRDVIEW 控件绑定数据后 后台c#控制隐藏某列
    mysql、oracle 中按照拼音首字母排序
    阅读《大道至简第一章》读后感(java伪代码)
  • 原文地址:https://www.cnblogs.com/Jimmy1988/p/8398507.html
Copyright © 2020-2023  润新知