我把爬取的数据从数据库中导出,直接设置导出格式为txt,还有不导出列名,所以第一步是txt文件上传到HDFS
1.将爬虫大作业产生的txt文件上传到HDFS
导入成功,查看数据
2.对CSV文件进行预处理生成无标题文本文件
无需处理第二步。
3.把hdfs中的文本文件最终导入到数据仓库Hive中
创建外部表,把HDFS中的“/bigdatacase/dataset”目录下的数据加载到了数据仓库Hive中
4.在Hive中查看并分析数据
5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)