背景:客户行为数据越积越多,公司有着挖掘客户大数据分析的需求
方案: 通过大数据仓库离线分析+presto引擎工具实现
用到的组件:hadoop2.7.4 、 hive-1.2.1(不要用2.X版本,坑很多) 、 sqoop-1.4.6 、 presto-server 、metabase(presto连接时候没有鉴权认证,所以提供一个UI管理界面)
运作流程:
1、sqoop将关系型数据库mysql的数据以分桶文件格式导入hive sqoop---->hdfs---->hive
2、调优hive的mapreduce参数
3、配置:presto链接hive 安装:presto客户端 使用:通过presto客户端查询所需数据 界面化:提供presto的UI界面metabase,设定好查询SQL,打好标签,供客户使用