一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
选择 1.Hadoop平台应用 --淘宝双11数据分析与预测
通过Hadoop平台对淘宝的双十一数据进行分析,并预测出回头客,熟悉对于Hadoop平台更多的应用和操作。
二、实践方案
简要说明理由。
步骤零:实验环境准备 | 整个实验的基础 |
步骤一:本地数据集上传到数据仓库Hive | 获取数据集 |
步骤二:Hive数据分析 | 对数据集进行初步的理解分析 |
步骤三:将数据从Hive导入到MySQL | 导出数据,供预测使用 |
步骤四:利用Spark预测回头客 | 利用数据进行预测 |
步骤五:利用ECharts进行数据可视化分析 | 对结果进行可视化,更直观的感受 |
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
1.
- 网站用户购物行为分析
- 官网:http://dblab.xmu.edu.cn/post/7499/
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
- 电信用户行为分析
- http://dblab.xmu.edu.cn/post/useranalysis/
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt