• 爬取校园新闻首页的新闻


    import requests
    from bs4 import BeautifulSoup
    import string
    import time
    import datetime
    
    
    head = {}
    head['user-agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
    
    r=requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/",headers=head)
    r.encoding='utf-8'
    soup=BeautifulSoup(r.text,'html.parser')
    for i in soup.select('li'):
        if len(i.select(".news-list-title"))>0:
            a=i.select(".news-list-title")[0].text
            b=i.select(".news-list-info")[0].contents[0].text
            c=i.select(".news-list-info")[0].contents[1].text
            d=i.select("a")[0].attrs['href']
    
            print("标题:"+a+'
    '+"时间:"+b+'
    '+"来源:"+c+'
    '+"链接:"+d+'
    
    ')
            print()
            print()
            print()
    
            r1=requests.get(d,headers=head)
            r1.encoding='utf-8'
            soup=BeautifulSoup(r1.text,'html.parser')
            e=soup.select(".show-info")[0].text
            f=e.split()
            for i in range(len(f)-1):
                print(f[i],end=' ')
            print()
    
    
            print()
            #时间类型转换
            dt=e.lstrip('发布时间:')[:19]
            dt = datetime.datetime.strptime(dt,'%Y-%m-%d %H:%M:%S')
            print("datetime类型时间:",end=' ')
            print(dt)
    
            print()
            #作者
            i=e.find('作者:')
            if i>0:
                s=e[e.find('作者:'):].split()[0].lstrip('作者:')
            print("作者:",end=' ')
            print(s)
    
    
            print()
            #审核
            i=e.find('审核:')
            if i>0:
                s=e[e.find('审核:'):].split()[0].lstrip('审核:')
            print("审核:",end=' ')
            print(s)
    
    
            print()
            #来源
            i=e.find('来源:')
            if i>0:
                s=e[e.find('来源:'):].split()[0].lstrip('来源:')
            print("来源:",end=' ')
            print(s)
    
    
            print()
            #摄影
            i=e.find('摄影:')
            if i>0:
                s=e[e.find('摄影:'):].split()[0].lstrip('摄影:')
            print("摄影:",end=' ')
            print(s)
    
    
            print()
            #打印文章主体
            print(soup.select("#content")[0].text)
            print()
            print()
            print()

  • 相关阅读:
    python2.7之打飞机(文末附素材链接)
    python画小猪佩奇
    什么叫递归
    DIV居中的几种方法
    什么是控制反转
    上传图片及时预览
    MVC与三层的区别
    From表单提交刷新页面?
    文件上传之form表单篇
    文件上传之伪Ajax篇
  • 原文地址:https://www.cnblogs.com/wban48/p/8691850.html
Copyright © 2020-2023  润新知