爬虫篇 2017/12/22 暖冬 - 润新知

爬虫篇 2017/12/22 暖冬

爬虫常用库：请求库、解析库、存储库

urllib、re （python内置库）

requests：请求库

selenium：驱动浏览器、自动化测试

chromedriver：chrome浏览器驱动

phantomjs：不会弹出浏览器，无界面浏览器

lxml：提供。。。解析方式

beautifulsoup：网页解析库 bs4（该模块名称）

pyquery：网页解析库，更加方便

pymysql：连接MySQL数据库的库

pymongo：操作mongodb数据库的库

redis：非关系型数据库，用于分布式爬虫，效率高

flask：代理设置

django：外部服务器框架，提供一个完整的后台管理，模块接口，引擎，用于分布式爬虫的维护

基本流程：

1、发起请求

请求方式（get、post）请求url URL：统一资源定位符请求头请求体

2、获取相应内容

响应状态、响应头、响应体：最主要部分，包含请求源代码

3、解析内容

解析方式： JSon解析正则表达式 beautifulsoup：好用 pyquery xpath

解决JavaScript渲染的问题：分析ajax请求 selenium/webdriver splash pyv8、ghost.py

4、保存数据：

文本：纯文字、json、xml

关系型数据库：msql、Oracle等具有结构化表结构形式存储

非关系型数据库：MongoDB、Redis等key-value形式存储格式

二进制文件：图片、音频、视频等直接保存成特定格式
相关阅读:
从零开始学android开发-通过WebService获取今日天气情况
 android常见错误-E/AndroidRuntime(13678): java.lang.NoClassDefFoundError:
java 使用相对路径读取文件
 冒泡排序
 快速排序
 为什么使用抽象类？有什么好处？
为什么用抽象类，接口
 String.valueOf()
Python 资源
 文本相似度-BM25算法
原文地址：https://www.cnblogs.com/bitou/p/8088062.html

Copyright © 2020-2023 润新知