• 大数据综合案例---网站点击流数据分析系统


    大数据的学习告一段落,今天是大数据近些日子的最后一篇。

    这篇主要是一个思路,并没有代码啥的,也是将所学的东西,进行一个小的应用。

    最后希望大家都可以学习到东西,还是那句话,不懂就问我

    点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。

     系统架构
    nginx做负载均衡,代理服务器;flume收集nginx的日志,存储在hdfs上,mayreduce对hdfs的信息进行分析,并存到hdfs上;hive使用mapreduce的数据得到一个统计处理,oozie(azkaban)做任务调度,sqoop在两个数据库之间做导入和导出

     数据采集

     

     开启nginx  (我的是在/usr/local/nginx这里)没在bin下开服务前是没有很多文件夹的,开启之后便能在logs看到访问日志

     

     

     数据预处理

    过滤不合规数据,格式转换和规整数据,根据后续的统计需求,过滤分离出各种不同主题的基础数据

     

  • 相关阅读:
    dda的fpga实现(转载)
    第四篇:数据预处理(一)
    第三篇:数据可视化
    第二篇:数据可视化
    第一篇:查阅数据
    RocketMQ集群部署记录
    使用k8s cronjob ,清除应用生成的日志文件
    使用HostAliases 添加pod 的/etc/hosts
    docker in docker 出现 libltdl.so.7 问题
    容器中JVM获取真实的CPU核数
  • 原文地址:https://www.cnblogs.com/longshisan/p/14928216.html
Copyright © 2020-2023  润新知