爬虫综合大作业

作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159

一.把爬取的内容保存到数据库sqlite3

代码

1 import sqlite3
2 import pandas as pd
3 from pandas import DataFrame11 
4 newsdf = pd.read_csv(r'C:UsersAdministratorDesktop
ewsmsg.csv', engine='python')
5 with sqlite3.connect('gzccnewsdb.sqlite') as db:
6     newsdf.to_sql('gzccnews',con = db)
7 with sqlite3.connect('gzccnewsdb.sqlite') as db:
8     df2 = pd.read_sql_query('SELECT * FROM gzccnews',con=db)
9 df2

运行效果

保存到MySQL数据库

代码

1 from pandas import DataFrame
2 import pandas as pd
3 import pymysql
4 from sqlalchemy import create_engine
5 
6 newsdf = pd.read_csv(r'C:UsersAdministratorDesktop
ewsmsg.csv', engine='python')
7 conInfo = r"mysql+pymysql://root:@localhost:3306/gzccnews?charset=utf8"
8 engine = create_engine(conInfo,encoding='utf-8')
9 newsdf.to_sql(name='news', con=engine, if_exists='append', index=False)

运行效果

二.爬虫综合大作业

选择一个热点或者你感兴趣的主题。
选择爬取的对象与范围。
了解爬取对象的限制与约束。
爬取相应内容。
做数据分析与文本分析。
形成一篇文章，有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
文章公开发布。

爬虫综合大作业文章路径：https://www.cnblogs.com/-QAQ/p/10848890.html

相关阅读:
剑指offer_24:二叉树中和为某一值的路径
剑指offer_23:二叉搜索树的后序遍历序列
Java基础类型大小
旋转数组
剑指offer_22:从上往下打印二叉树
剑指offer_21:栈的压入、弹出序列
剑指offer_20:包含min函数的栈
剑指offer_19:顺时针打印矩阵
剑指offer_18:二叉树的镜像
redis jedis源码

原文地址：https://www.cnblogs.com/-QAQ/p/10775315.html