一、选题与意义
1.Hadoop平台应用 √
2.Kaggle分析数据项目
简要说明理由与意义。
答:分布式系统,大数据。进行map reduce
进行数据挖掘
因而适应你的文本分类的需求
二、实践方案
简要说明理由。
答:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校(高职)大数据教学,可以作为学生学习大数据课程后的综合实践案例。通过本案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据全流程操作。
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
答:
- 安装Linux操作系统
- 安装关系型数据库MySQL
- 安装大数据处理框架Hadoop
- 安装数据仓库Hive
- 安装Sqoop
- 安装Eclipse
- 安装 Spark
- 对文本文件形式的原始数据集进行预处理
- 把文本文件的数据集导入到数据仓库Hive中
- 对数据仓库Hive中的数据进行查询分析
- 使用Sqoop将数据从Hive导入MySQL
- 利用Eclipse搭建动态Web应用
- 利用ECharts进行前端可视化分析
- 利用Spark MLlib进行回头客行为预测
1.
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt
2.
https://www.kaggle.com/competitions
说明:
- 个人项目,不要求组队,确实需要组队的说明理由。
- 边操作边记录;
- 每天完成当天文档;
- 最后综合成课程实践报告
翻译 朗读 复制 正在查询,请稍候…… 重试 朗读 复制 复制 朗读 复制 via 谷歌翻译(国内) 译
翻译 朗读 复制 正在查询,请稍候…… 重试 朗读 复制 复制 朗读 复制 via 谷歌翻译(国内) 译