读取csv文件
通过csv.reader()和DictReader()两个函数
reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;
DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!
import csv
# with open('1 (2).csv','r') as fp:
# reader=csv.reader(fp)
# # next(reader)
# for x in reader:
# print(x)
with open('1 (2).csv','r') as fp:
reader=csv.DictReader(fp)
for i in reader:
print(i['学生姓名'])
写入csv文件
两个方法:一个通过writer()函数 一个通过Dictwriter()函数。
writerow() writerows()
都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。
注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。
这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。
项目
项目说明:爬取豆瓣图片前十页,并用csv库存储下来。
代码如下:
import requests
import csv
from bs4 import BeautifulSoup
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
}
headers=['书名','相关信息','评分']
def spdier(url):
resp=requests.get(url,headers=header)
text=resp.text
html=BeautifulSoup(text,"lxml")
# print(html.prettify())
alist=html.find_all('a',class_='title')
titles=[]
for a in alist:
title=list(a.stripped_strings)[0]
titles.append(title)
infolist=html.find_all('div',class_='desc')
infos=[]
for info in infolist:
info1=list(info.stripped_strings)[0]
infos.append(info1)
ratelist=html.find_all('span',class_='rating_nums')
rates=[]
for i in ratelist:
rate=list(i.stripped_strings)[0]
rates.append(rate)
books=[]
for i in range(len(rates)):
book={
'书名':titles[i],
'相关信息':infos[i],
'评分':rates[i]
}
books.append(book)
return books
def csv_storage(list_books,filename):
with open(filename,'w',encoding='utf-8',newline='') as fp:
writer=csv.DictWriter(fp,headers)
writer.writeheader()
writer.writerows(list_books)
def main():
base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
books=[]
for i in range(0,136,15):
url=base_url.format(i)
book=spdier(url)
books +=book
csv_storage(books,'豆瓣图片.csv')
if __name__ == '__main__':
main()
总结
今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。