• 大数据分析(一)探索性分析


      最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoophivestorm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。

      我们对大数据以及大数据分析完全没有头绪,我们甚至对大数据技术产生了迷茫,产生了退缩。

      当我们拿到数据应该怎么做呢,如果不知道怎么做,那就先进行探索性分析吧。

      分析数据可以分为探索和验证两个阶段。探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。

      探索性分析一般表现为直方图和茎叶图。探索性数据分析的基本工具是图、制表和汇总统计量。一般来说,探索性数据分析是一种系统性分析数据的方法,它展示了所有变量的分布情况、时间序列数据和变换变量,利用散列矩阵图展示了变量两两之间的关系,并且得到了所有的汇总统计量。换句话说,就是要计算均值、最大值、最小值、上下四分位数和确定异常值。

      说了那么多,那就来个例子吧。并给出R语言和spss实现。

         附件的数据共有5列,分别为:年龄、性别、广告次数、点击次数和是否登录。

    R语言的实现:

     1 root="F:/dds_datasets/dds_ch2_nyt/"
     2 setwd(root)
     3 file<-paste(root,"nyt1.csv",sep="")
     4 nytdata<-read.csv(file)
     5 head(nytdata)
     6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf))
     7 summary(nytdata)
     8 
     9 install.packages("doBy")
    10 library("doBy")
    11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}
    12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)
    13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)
    14 ##先画出直方图图
    15 
    16 install.packages("ggplot2")
    17 library("ggplot2")
    18 
    19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()
    20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()
    View Code

     分析结果如下:

    spss实现比较简单,通过向导导入数据,选择 分析-数据描述-探索就行了。

    我也是码农中的一员,大数据对我来讲我也是初学者,前段时间开始学习R语言,感兴趣的同仁可以进来互相交流。

     不知道在哪可以传附件,晕了。。。。。。。有需要数据的请联系我。

  • 相关阅读:
    用于爬取知乎某个话题下的精华问题中所有回答的爬虫
    BSP -- 图书共享系统(Book Sharing Platform)
    【已解决】WPS2018 从第三页开始插入页眉页码(即前两页不要页眉页码)
    【编译原理】大白话讲解 First 集和 Follow 集的构造算法
    如果
    HTTP协议(1)------->资源和URL
    JavaWeb框架_Struts2_(八)----->Struts2的国际化
    深入理解java虚拟机----->垃圾收集器与内存分配策略(下)
    深入理解java虚拟机----->垃圾收集器与内存分配策略(上)
    JavaWeb框架_Struts2_(七)----->文件的上传和下载
  • 原文地址:https://www.cnblogs.com/bigdatafly/p/5087597.html
Copyright © 2020-2023  润新知