• 理解爬虫原理


    作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

    1. 简单说明爬虫原理

    1、发起请求

    使用http库向目标站点发起请求,即发送一个Request

    Request包含:请求头、请求体等 

    Request模块缺陷:不能执行JS 和CSS 代码

    2、获取响应内容

    如果服务器能正常响应,则会得到一个Response

    Response包含:html,json,图片,视频等

    3、解析内容

    解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

    解析json数据:json模块

    解析二进制数据:以wb的方式写入文件

    4、保存数据

    数据库(MySQL,Mongdb、Redis)

    文件

    2. 理解爬虫开发过程

    1).简要说明浏览器工作原理;

    输入url,发送请求,通过网络连接,等待服务器相应返回数据,浏览器出现界面

    2).使用 requests 库抓取网站数据;

    requests.get(url) 获取校园新闻首页html代码

    url='http://news.gzcc.cn/html/xiaoyuanxinwen'
    res = requests.get(url)
    

      

    3).了解网页

    写一个简单的html文件,包含多个标签,类,id

    <body> 
    <h1 id="tt">Hello</h1> 
    <a href="#" class="ff"> This is link1</a >
    <a href="# link2" class="ff" qao=123> This is link2</a >
    </body> 
    

      

    4).使用 Beautiful Soup 解析网页;

    通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

    select(选择器)定位数据

    找出含有特定标签的html元素

    a=soup.select('h1')[0].text
    print(a)
    

      

    找出含有特定类名的html元素

    for i in range(len(soup.select('.link'))):
        b=soup.select('.link')[i].text
    print(b)
    

      

    找出含有特定id名的html元素

    c=soup.select('#title')[0].text
    print(c)
    

      

    3.提取一篇校园新闻的标题、发布时间、发布单位

    url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

    url='http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0322/11042.html'
    res=requests.get(url)
    res.encoding='utf-8'
    soup1=BeautifulSoup(res.text,'html.parser')
    a=soup1.select('.show-title')[0].text
    b=soup1.select('.show-info')[0].text
    print(a,b)
    

      


  • 相关阅读:
    在IIS上搭建WebSocket服务器(一)
    ngnix 一 入门指南
    博客园的打赏功能
    Java基础(十)内部类
    Java虚拟机之垃圾回收详解一
    Servlet问题:servlet cannot be resolved to a type解决办法
    WIN7局域网文件共享设置方法
    基于tcp的socket通信
    java基础之抽象类的介绍
    Hdfs详解
  • 原文地址:https://www.cnblogs.com/cjx666/p/10595198.html
Copyright © 2020-2023  润新知