• 用requests库和BeautifulSoup4库爬取新闻列表


    1、用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。

    import requests
    from bs4 import BeautifulSoup
    
    re = requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/")
    re.encoding = 'utf-8'
    
    soup = BeautifulSoup(re.text,'html.parser')
    s = soup.select('a')
    
    for news in s:
        if len(news.select(".news-list-title"))>0:
            title=news.select(".news-list-title")[0].text
            time=news.select(".news-list-info")[0].contents[0].text
            content=news.select(".news-list-info")[0].contents[1].text
            url=news.attrs['href']
            text=news.select(".news-list-description")[0].text
            print(title,  time,  content,  url,  text)

    输出结果:

    感悟信仰力量,加强信仰教育——我校举行信仰教育研习班开班典礼 2017-09-26 马克思主义学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0926/8262.html 9月21日下午,我校“信仰教育研习班”开班典礼及教育动员大会在我校第四教学楼第二学术报告厅举行。
    澳大利亚阿德莱德大学Simon Futo一行来访我校 2017-09-25 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0925/8252.html 9月25日,澳大利亚最古老、最享有盛誉的八大名校之一阿德莱德大学来访我校。
    杨文轩教授入选中国哲学社会科学最有影响力学者 2017-09-25 学校综合办 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0925/8249.html 9月23日,我校校长杨文轩教授入选中国哲学社会科学一级学科最有影响力学者。
    我校军训受到人民日报等媒体广泛关注 2017-09-23 学校综合办 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0923/8246.html 9月22日晚,我校新生军训团国旗方队的训练视频,被人民日报、共青团中央等众多新闻和机构媒体进行了报道。
    责任信念记心头 扬帆起航正当时——我校举行2017级新生军训总结表彰大会 2017-09-22 学生处 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0922/8232.html 9月22日上午,我校在足球场隆重举行2017级新生军训总结表彰大会。
    英国赫尔大学商学院副院长Mr. Lynne Brrow一行来我校访问交流 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8225.html 9月21日,英国赫尔大学商学院副院长Mr  Lynne Brrow、中国区代表葛恒等一行七人来访我校。
    广东省教育厅高教处领导莅临我校调研 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8226.html 9月20日下午,广东省教育厅高教处处长郑文一行莅临我校调研物流管理专业校企协同育人情况。
    广东省教育厅交流合作处领导莅临我校考察 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8217.html 9月20日,广东省教育厅交流合作处处长李金俊、副处长周国平一行莅临我校考察和指导工作。
    杨文轩主持召开广东省民办教育协会常务会议 2017-09-20 综合办公室 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0920/8205.html 9月19日下午,广东省民办教育协会会长、我校校长杨文轩教授在我校主持召开广东省民办教育协会常务会议。
    我校开展消防安全演练教育活动 2017-09-20 保卫处 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0920/8208.html 9月19日,我校联合地方有关单位,开展突发事件应急疏散演练暨消防灭火实操能力培训活动。

    2、选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。

    import requests
    from bs4 import BeautifulSoup
    
    re = requests.get('https://www.cnblogs.com/cate/python/')
    re.encoding = 'utf-8'
    
    soup = BeautifulSoup(re.text,'html.parser')
    s = soup.select('a')
    
    for program in s:
        title = program.select('.titlelnk')[0].text
        summary = program.select('.post)item_summary')[0].text
        print(title,summary)
  • 相关阅读:
    使用Fiddler抓取手机APP数据包--360WIFI
    mysql 查询数据库表信息,字段信息
    jQuery动态移除和绑定事件
    Topshelf+Quatz.Net的简单使用
    教你花30分钟时间搭建一个个人博客
    泛型接口的抗变和协变
    Action<T>和Func<T>
    DateTime和DateTimeOffset的区别
    Expression<Func<TObject, bool>>与Func<TObject, bool>的区别
    C#学习笔记(1) --简叙.net体系结构
  • 原文地址:https://www.cnblogs.com/xypbk/p/7603344.html
Copyright © 2020-2023  润新知