• Python爬虫学习笔记1:request、selenium、ChromeDrive、GeckoDriver等相关依赖安装


    系列学习笔记参考:python3网络爬虫开发实战

    requests

    # pip install requests
    import requests
    

    selenium

    Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 。 对于一些 JavaScript谊染的页面来说,这种抓取方式非常有效.

    # pip install selenium
    import selenium
    

    ChromDriver

    点击 Chrome菜单“帮助”→“关于 GoogleChrome”,即可查看 Chrome 的版本号.

    在网站:http://chromedriver.chromium.org/downloads下载对应版本的文件,下载后解压文件到/usr/bin 里面

    解决方法参考:https://www.cnblogs.com/silentdoer/p/8946946.html,感觉挺靠谱,不过我本机上没成功,没敢在捣鼓

    尝试其他方式:

    将当前可执行文件放在/usr/local/chromedriver 目录下(没有就自己新建一个),接下来可以修改~/.profile文件, 

    export PATH=” $PATH:/usr/local/chromedriver" 保存后执行如下命令:

    touch ~/.profile

     配置完成后,就可以在命令行下直接执行 chromedriver命令了:

    chromedriver 

    在python编辑器上执行

    from selenium import webdriver
    browser = webdriver.Chrome() 

    闪退,报错,提示版本对不上(之前装过73版本的,在/usr/bin路径上),需要把该路径上的文件删除了。

    解决方法,修改/usr/bin 下面的权限,参考:https://www.jianshu.com/p/c658973eb122,修改后重启,记得修改回来,修改回来脚本:csrutil enable

    替换掉旧的就可以了

    GeckoDriver 

    Firefox来说, 也可以使用同样的方式完成 Selenium的对接,这时需要安装另一个驱动GeckoDriver

    下载地址:https://github.com/mozilla/geckodriver/releases

    步骤和上面一样,也是修改/usr/bin 的权限

    from selenium import webdriver
    brower = webdriver.Firefox()
    

    PhantomJS

    PhantomJS是一个无界面的、可脚本编程的 WebKit浏览器引擎,它原生支持多种 Web标准: DOM操作、 css选择器、 JSON、 Canvas以及 SVG。

    Selenium支持 PhantomJS,这样在运行的时候就不会再弹出 一个浏览器了

     

    不过鉴于目前selenium不在支持PhantomJS,这里不在进行安装。

    相关新闻查看:http://www.sohu.com/a/224999034_100122143

     pyquery

    pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文梢, 支 持 css选择器。

    pip install pyquery

    tesserocr

    在 Mac下,我们首先使用 Homebrew安装 ImageMagick和 tesseract库 :

    brew install imagemagick
    brew install tesseract --all-languages

    接下来再安装 tesserocr即可: pip3 install tesserocr pillow

    这样我们便完成了 tesserocr的安装

    在用homebrew 安装的时候如果遇到update brew,解决方式参考:https://learnku.com/articles/18908

    安装好后,试验下下面的图片,图片地址:

    https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png

    到图片路径下面,执行:

    tesseract image.png result -l eng && cat result.txt 

    结果:

    嗷嗷

  • 相关阅读:
    Linux环境下使用eclipse开发C++动态链接库程序
    例解 autoconf 和 automake 生成 Makefile 文件
    linux下编译boost
    在linux下如何编译C++程序
    windows和linux套接字中的select机制浅析
    看到关于socket非阻塞模式设置方式记录一下。
    MySQL批量执行sql文件
    Sqlcmd使用详解
    批量执行SQL文件
    SpringCloud微服务之跨服务调用后端接口
  • 原文地址:https://www.cnblogs.com/zheng1076/p/11121561.html
Copyright © 2020-2023  润新知