爬虫原理及工具的小总结 - 润新知

爬虫原理及工具的小总结

一：获取网页

发送http请求获得网页源码

可使用库：urlib / requests

二：提取信息

获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据。

最常用最通用：正则表达式

根据一些网页节点属性的库：Beautiful Soup / pyquery / lxml

对于使用Ajax接口的网页代码：Selenium / Splash （模拟JavasScript渲染）

三：保存数据

文本：TXT / JSON

数据库：MySQL / MongoDB

远程服务器：SFTP

学习文档：静觅爬虫实战
相关阅读:
Oracle 与.NET Framework 数据类型映射
 mvc使用JsonResult返回Json数据(转)
like参数替换
 jquery 等比缩放
 【linq to sql】已有打开的与此命令相关联的 DataReader，必须首先将它关闭
 脚本
 2012年计划——开始我的敏捷个人之行
 在Win7 64位机器上安装Oracle 10客户端以及PlSql
词干提取算法Porter Stemming Algorithm解读
 开源搜索框架Lucene学习之分词器（2）——TokenFilter类及其子类
原文地址：https://www.cnblogs.com/kumata/p/9578529.html

热门文章
POJ 3273
POJ 1416
POJ 2106
poj 1308
POJ 1905
POJ 2531
删除语句
 javascript Date format(js日期格式化) .
sql
GetDataTable

Copyright © 2020-2023 润新知