• Python爬虫从入门到进阶(1)之Python概述及爬虫入门


    一、Python 概述

    1.计算机语言概述

    (1).语言:交流的工具,沟通的媒介

    (2).计算机语言:人跟计算机交流的工具

    (3).Python是计算机语言的一种

    2.Python编程语言

      代码:人类的语言,同代码命令机器,跟机器交(2).python解释器:担任翻译工作(3)流程:

      写代码 --> 执行:由翻译官(Python解释器)把命令(Code)翻译给机器,同时把机器结果翻译给我们

    3.Python简史
      (1).1989
      (2).2008:Python 3.0 诞生
      (3)2014:宣布2.7支持到2020年
      (4)2017:AI元年,Python崛起
    4.Python特点
      速度问题:相对较慢(原因参考博文为什么python运行的慢)

    5.Python应用领域
      全能:WEB开发,桌面软件,网络编程,爬虫开发,云计算开发,人工智能,自动化运维,金融分析,科学运算,游戏开发

      Python的就业方向:Linux运维, Python Web网站工程师, Python自动化测试, 数据分析,人工智能

      设计哲学:平衡发展,样样通,简洁明了

    6.开发环境问题
      pycharm + Python3.7
      注意:接下来所有示例代码都是基于Mac环境下Python3.7版本下的开发

    7.Python的执行方式
      本质上Python是一堆命令的集合
      执行过程是逐行执行,遇到问题即可终止
      打印Hello World!

    print('Hello world!')

     温馨提示:Python基础请查看廖雪峰大神官方文档,不再累述,下篇直接开始各个库的使用

    二、爬虫入门

    1.爬虫入门:使用代码模拟真实用户发送网络请求批量获取数据
    1).爬虫价值:
    1.买卖数据(高端领域特别贵)
    2.数据分析(出分析报告)
    3.流量
    4.阿里指数,百度指数
    2).合法性:灰色产业
    政府没有法律规定爬虫是否违法
    公司概念:公司让你爬取数据
    爬虫是否可以爬所有的东西?不可以,爬虫只能爬取到用户可以访问的数据
    爱奇艺视频(vip 用户,非 vip 用户)
    付费小说(付费才能爬取)

    2.爬虫分类:
    1.通用爬虫:使用搜索引擎:百度,360,谷歌...
    劣势:目标不明确,返回的内容90%是用户不需要的,不清楚用户的需求在哪里
    优势:开放性,速度快
    2.聚焦爬虫:
    优势:目标明确,对用户的需求非常精准,返回的内容固定
    3.增量式爬虫:翻页,从第一页爬到最后一页
    4.Deep,深度爬虫:静态数据 html,动态数据:js 代码,加密的 js
    robost协议:是否允许其他爬虫(通用爬虫)爬取某些内容

    3.爬虫的工作原理:
    1.查询你抓取目标的 url(必须的,难)
    2.使用 Python 代码发送请求获取数据
    3.解析获取道德数据(精准数据)
    4.数据持久化
  • 相关阅读:
    ASP 禁止页面被缓存
    关于学习编程的一点想法
    今天下午做的一个关于web前端性能/性能测试的Talk
    错误植入法与老祖宗的智慧
    关闭sitwithwhom.51.net
    让Pywinauto支持中文菜单
    勤学与好问
    LoadRunner 的 web_set_user 函数
    有奖调查——《软件性能测试过程详解与案例剖析》第二版内容调查
    论“响应时间”
  • 原文地址:https://www.cnblogs.com/zimengfang/p/10140970.html
Copyright © 2020-2023  润新知