大数据的学习告一段落,今天是大数据近些日子的最后一篇。
这篇主要是一个思路,并没有代码啥的,也是将所学的东西,进行一个小的应用。
最后希望大家都可以学习到东西,还是那句话,不懂就问我
点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
系统架构
nginx做负载均衡,代理服务器;flume收集nginx的日志,存储在hdfs上,mayreduce对hdfs的信息进行分析,并存到hdfs上;hive使用mapreduce的数据得到一个统计处理,oozie(azkaban)做任务调度,sqoop在两个数据库之间做导入和导出
数据采集
开启nginx (我的是在/usr/local/nginx这里)没在bin下开服务前是没有很多文件夹的,开启之后便能在logs看到访问日志
数据预处理
过滤不合规数据,格式转换和规整数据,根据后续的统计需求,过滤分离出各种不同主题的基础数据