• 爬虫实战_爬取豆瓣图书利用csv库存储


    读取csv文件

    通过csv.reader()和DictReader()两个函数
    reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;
    DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!

    
    import csv
    # with open('1 (2).csv','r') as fp:
    #     reader=csv.reader(fp)
    #     # next(reader)
    #     for x in reader:
    #         print(x)
    with open('1 (2).csv','r') as fp:
        reader=csv.DictReader(fp)
        for i in reader:
            print(i['学生姓名'])
    
    
    

    写入csv文件

    两个方法:一个通过writer()函数 一个通过Dictwriter()函数。
    writerow() writerows()
    都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。
    注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。
    这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。


    项目

    项目说明:爬取豆瓣图片前十页,并用csv库存储下来。
    代码如下:

    import requests
    import csv
    from bs4 import BeautifulSoup
    header={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
    }
    headers=['书名','相关信息','评分']
    def spdier(url):
        resp=requests.get(url,headers=header)
        text=resp.text
        html=BeautifulSoup(text,"lxml")
        # print(html.prettify())
        alist=html.find_all('a',class_='title')
        titles=[]
        for a in alist:
            title=list(a.stripped_strings)[0]
            titles.append(title)
        infolist=html.find_all('div',class_='desc')
        infos=[]
        for info in infolist:
            info1=list(info.stripped_strings)[0]
            infos.append(info1)
        ratelist=html.find_all('span',class_='rating_nums')
        rates=[]
        for i in ratelist:
            rate=list(i.stripped_strings)[0]
            rates.append(rate)
        books=[]
        for i in range(len(rates)):
            book={
                '书名':titles[i],
                '相关信息':infos[i],
                '评分':rates[i]
            }
            books.append(book)
        return books
    def csv_storage(list_books,filename):
        with open(filename,'w',encoding='utf-8',newline='') as fp:
            writer=csv.DictWriter(fp,headers)
            writer.writeheader()
            writer.writerows(list_books)
    def main():
        base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
        books=[]
        for i in range(0,136,15):
            url=base_url.format(i)
            book=spdier(url)
            books +=book
        csv_storage(books,'豆瓣图片.csv')
    if __name__ == '__main__':
        main()
    

    总结

    今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。

  • 相关阅读:
    tp5后台开发某些心得
    some note
    py数据抓取小案例(博客
    vue axios的使用
    C# WebApi POST 提交
    WebApi 返回Json
    C# WebApi 处理Area路径问题
    时间比较
    将多行数据合并为一列
    汉字转换拼音
  • 原文地址:https://www.cnblogs.com/Da4er/p/12318129.html
Copyright © 2020-2023  润新知