补一下前天的进度
前天主要完成了清洗以后的数据导入hive以及数据的处理(统计前10个)
下一阶段计划完成数据可视化展示
2.数据处理
1.统计最受欢迎的视频/文章的Top10访问次数 (video/article)
视频:
文章:
2.按照地市统计最受欢迎的Top10课程 (ip)
没有理解这个题什么意思
我理解的是分别统计每个城市最受欢迎的前10个课程 然后我按IP和id进行分组 但是这样出来的结果不对 不知道咋整
3.·按照流量统计最受欢迎的Top10课程 (traffic)
3、数据可视化:将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。
将HIVE中的表数据导出到临时文件中