爬虫简单的介绍

爬虫简单的介绍

一，大数据时代，数据获取的方式

企业产生的用户数据：大型互联网公司有海量用户，所以积累他们有数据天然优势
有数据意识的中小型企业，也开始积累数据

数据管理咨询公司：通畅这样的公司通常有很庞大数据采集团队，一般通常市场调研和各行各业的公司进行合作，专家对话（数据积累多年，最终得出科研成果）

政府/机构提供的公开数据：政府通过各地政府统计上报的数据进行合并;
机构都是权威的第三方网站

第三方数据平台购买数据：通过各个数据交易平台购买各行各业需要的数据，根据获取难度不同，价格也会不同。

爬虫爬取数据：如果市场上没有我们需要的数据，或者价格太高不愿意买，那就自己找人进行网上爬取

二，什么是爬虫

爬虫：就是抓取网页数据的程序

三，爬虫怎么抓取网页数据：

网页三大特征

每个网页都有自己唯一的URL（统一资源定位符）来进行定位
网页都使用HTML（超文本标记语言）来描述页面信息
网页都使用HTTP / HTTPS（超文本传输协议）协议传输HTML数据

爬虫的设计思路

首先确定需要爬取的URL地址

通过HTTP / HTTPS协议获取对应的HTML页面
提取HTML页面的数据：
a。如果是需要数据，就保存起来
b。如果是页面里的其他URL，那就继续执行第二步。

四，为什么选择python爬虫

可以做爬虫的语言有很多，如PHP，Java，C / C ++，等等...

PHP虽然是世界上最好的语言，天生不是做爬虫的，但是做web的。而且对多线程，异步支持不够好，并发处理能力
不足。爬虫经常要修改大量代码是工具性程序，对速度和效率要求比较高。

Java爬虫经常要修改大量代码

C / C ++运行效率和性能几乎最强，但学习成本高，代码成型比较慢。
能用C / C ++做爬虫，只能说能力的表现，但不是正确的选择。

python语法优美，代码简洁，开发效率高，支持模块多，相关的HTTP请求模块和HTML解析模块非常丰富，
还有强大的爬虫框架Scrapy，以及成熟高效的scrapy-redis分布式策略。而且调用其他接口也非常方便（胶水语言）。

五，爬虫如何抓取页面：

HTTP请求的处理，urllib的，urllib2的，请求

处理后的请求可以模拟浏览器发送请求，获取服务器响应文件
相关阅读:
hdu-2841 Visible Trees---容斥定理
 hdu-4135 Co-prime---容斥定理经典&&求1-m中与n互质的数目
 hdu-1796 How many integers can you find---容斥定理
 hdu-2837 Calculation---指数循环节
 FZU-1759 Super A^B mod C---欧拉降幂&指数循环节
 指数循环节&欧拉降幂
 hdu-3074 Multiply game---线段树+单点更新
 hdu-1792 A New Change Problem---数论&剩余系
 POJ-2429 GCD & LCM Inverse---给出gcd和lcm求原来两个数
 hdu-2685 I won't tell you this is about number theory---gcd和快速幂的性质
原文地址：https://www.cnblogs.com/llbb/p/11696405.html

爬虫简单的介绍

一，大数据时代，数据获取的方式

二，什么是爬虫

三，爬虫怎么抓取网页数据：

四，为什么选择python爬虫

五，爬虫如何抓取页面：