• 爬虫简单的介绍


     

    一,大数据时代,数据获取的方式

    企业产生的用户数据:大型互联网公司有海量用户,所以积累他们有数据天然优势
    有数据意识的中小型企业,也开始积累数据

    数据管理咨询公司:通畅这样的公司通常有很庞大数据采集团队,一般通常市场调研和各行各业的公司进行合作,专家对话(数据积累多年,最终得出科研成果)

    政府/机构提供的公开数据:政府通过各地政府统计上报的数据进行合并; 
    机构都是权威的第三方网站

    第三方数据平台购买数据:通过各个数据交易平台购买各行各业需要的数据,根据获取难度不同,价格也会不同。

    爬虫爬取数据:如果市场上没有我们需要的数据,或者价格太高不愿意买,那就自己找人进行网上爬取

    二,什么是爬虫

    爬虫:就是抓取网页数据的程序

    三,爬虫怎么抓取网页数据:

    网页三大特征

    每个网页都有自己唯一的URL(统一资源定位符)来进行定位
    网页都使用HTML(超文本标记语言)来描述页面信息
    网页都使用HTTP / HTTPS(超文本传输​​协议)协议传输HTML数据

    爬虫的设计思路

    首先确定需要爬取的URL地址

    通过HTTP / HTTPS协议获取对应的HTML页面
    提取HTML页面的数据:
    a。如果是需要数据,就保存起来
    b。如果是页面里的其他URL,那就继续执行第二步。

    四,为什么选择python爬虫

    可以做爬虫的语言有很多,如PHP,Java,C / C ++,等等...

    PHP虽然是世界上最好的语言,天生不是做爬虫的,但是做web的。而且对多线程,异步支持不够好,并发处理能力
    不足。爬虫经常要修改大量代码是工具性程序,对速度和效率要求比较高。

    Java爬虫经常要修改大量代码

    C / C ++运行效率和性能几乎最强,但学习成本高,代码成型比较慢。
    能用C / C ++做爬虫,只能说能力的表现,但不是正确的选择。

    python语法优美,代码简洁,开发效率高,支持模块多,相关的HTTP请求模块和HTML解析模块非常丰富,
    还有强大的爬虫框架Scrapy,以及成熟高效的scrapy-redis分布式策略。而且调用其他接口也非常方便(胶水语言)。

    五,爬虫如何抓取页面:

    HTTP请求的处理,urllib的,urllib2的,请求

    处理后的请求可以模拟浏览器发送请求,获取服务器响应文件

  • 相关阅读:
    hdu-2841 Visible Trees---容斥定理
    hdu-4135 Co-prime---容斥定理经典&&求1-m中与n互质的数目
    hdu-1796 How many integers can you find---容斥定理
    hdu-2837 Calculation---指数循环节
    FZU-1759 Super A^B mod C---欧拉降幂&指数循环节
    指数循环节&欧拉降幂
    hdu-3074 Multiply game---线段树+单点更新
    hdu-1792 A New Change Problem---数论&剩余系
    POJ-2429 GCD & LCM Inverse---给出gcd和lcm求原来两个数
    hdu-2685 I won't tell you this is about number theory---gcd和快速幂的性质
  • 原文地址:https://www.cnblogs.com/llbb/p/11696405.html
Copyright © 2020-2023  润新知