• Windows10+Python3+BeautifulSoup4 安装


    用正则表达式来提取网页中的内容是相当麻烦的,这里介绍一个可以从HTML或XML文件中提取数据的Python库:Beautiful Soup.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.Beautiful Soup 4.2.0 文档

    具体运用在官方文档中已经讲述的很清楚了,这里就不再赘述。说一下我安装时遇到的问题吧。

    1.安装python3
    官网下载并安装python3,加入Path变量,把安装好的python.exe重命名为python3.exe

    2.安装pip3
    输入:>pip3
    问题提示:Fatal error in launcher: Unable to create process using '"'
    输入:>python3 -m pip install --upgrade pip
    问题提示:Requirement already up-to-date: pip in c:users****appdatalocalprogramspythonpython36-32libsite-packages
    输入:>python3 -m pip install --upgrade pip --force-reinstall  

    输出:

    输入:>pip3 -V

    输出:pip 9.0.1 from c:users****appdatalocalprogramspythonpython36-32libsite-packages (python 3.6)

    pip3安装完成

    3.安装BeautifulSoup4

    >pip3 install beautifulsoup4

    如果要用源码安装,下载BS4的源码 ,然后通过setup.py来安装,

    将下载的压缩包解压到本地,用命令转换成Python3代码:

    进入Python的安装目录下的Toolsscripts,里面有2to3.py,用命令转换

    Python36-32Toolsscripts>python 2to3.py -w C:Users****AppDataLocalProgramsPythonPython36-32eautifulsoup4-4.6.0

    用命令提示符进入到BS4的解压的目录,开始安装:

    >python setup.py install

    4.安装解析器:

    >pip3 install lxml

    >pip3 install html5lib

    安装完成啦!可以开始测试了。

    现在网上有大量的BeautifulSoup3和Python2的代码,对照给出的demo测试时会出现各种问题。建议学习新内容的时候直接参考官方文档。

  • 相关阅读:
    Python一些常用模块
    八、线程和进程
    七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录
    一、scrapy的下载安装---Windows(安装软件太让我伤心了)
    六、BeautifulSoup4------自动登录网站(手动版)
    五、XML与xpath--------------爬取美女图片
    四、正则表达式re模块
    三、Requests库的使用
    二、urllib进阶
    一、爬虫的基本体系和urllib的基本使用
  • 原文地址:https://www.cnblogs.com/jesselzj/p/7080804.html
Copyright © 2020-2023  润新知