• 爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充


    今日内容概要

    • 如何将爬取的数据直接导入Excel表格

    #如何通过Python代码操作Excel表格
    #前戏
    import requests
    import time
    from openpyxl import workbook
    from bs4 import Beautifulsoup
    
    wb = workbook()
    sheet = wb.active
    count = 1
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
    }
    for i in range(0,250,25):
        ret = requests.get('https://movie.douban.com/top250?start=%s&filter='%(i),
                           headers=headers
                           )
        bs = BeautifulSoup(ret.text,'html.parser')
        ol = bs.find(name='ol',attrs={'class':'grid_view'})
        li_list = ol.find_all(name='li')
        sheet.title = '好评电影'
        sheet['A1'].value = '序号'
        sheet['B1'].value = '电影名称'
        sheet['C1'].value = '电影评分'
        sheet['D1'].value = '电影链接'
        sheet['E1'].value = '电影图片'
        for li in li_list:
            name = li.find(name='span',attrs={'class':'title'})
            a = li.find(name='a')
            span = li.find(name='span', attrs={'class': 'rating_num'})
            img = a.find(name='img')
            count += 1
            sheet['A%s' % (count)].value = count - 1
            sheet['B%s' % (count)].value = name.text
            sheet['C%s' % (count)].value = span.text
            sheet['D%s' % (count)].value = a['href']
            sheet['E%s' % (count)].value = img['src']
        time.sleep(1)
    wb.save('好评电影.xlsx')
    
    

    openpyxl模块

    """
    在Python中操作Excel表格的模块其实非常多
    	但是最近比较火的就是openpyxl
    	在此之前也有两个模块比较常用
    		xlwd和xlrt
    		也是读写分离的
    			xlwd控制写
    			xlrt控制读
    				读写分离
    				
    数据库集群及读写分离的概念
    
    
    Excel文件中的后缀名演变过程
    	03版本之后的后缀名是xlsx的
    	03版本及之前的后缀名是xls的
    	
    openpyxl模块只能操作xlsx文件
    
    xlwd、xlrt模块兼容两种后缀名文件
        03之前03之后都可以操作
    """
    
    为了舒适的结果,眼前的坎坷路程即使再长都是值得的。
  • 相关阅读:
    linux下使用svn
    [转]量变真的可以引起质变
    《自己动手写操作系统》pmtest2笔记
    Android-Java构造代码块&构造方法隐式三行
    Android-Java静态代码块&局部代码块
    Android-WebView与本地HTML (Java调用--->HTML的方法)-(new WebView(this)方式)
    Android-WebView加载网页(new WebView(this)方式)
    Android-Throwable: A WebView method was called on thread 'JavaBridge'.
    Android-WebView与本地HTML (互调)
    Android-WebView与本地HTML (Java调用--->HTML的方法)
  • 原文地址:https://www.cnblogs.com/abudrSatan1998/p/13724485.html
Copyright © 2020-2023  润新知