• 一次数据分析的全过程


    一次数据分析的全过程

    刚下完班的时候,在公司无聊的坐着,一位同事拿了一些数据给我,说让我实现一个类似交叉表格的统计报表。


    源数据就是个日志文本信息

    2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToBack()=TRUE       Len=154  MsgID=x00000202                 
    2008/1/11               02:14:33:181           181          00001c68                SeqID       418370    ToFront()=TRUE      Len=260  MsgID=x08000202                BEIP=192.168.1.162                BEPort=22049
    2008/1/11               03:05:42:330           330          00004110                SeqID       418370    ToBack()=TRUE       Len=154  MsgID=x00000202                 
    2008/1/11               03:05:42:346           346          00004110                SeqID       418370    ToFront()=TRUE      Len=261  MsgID=x08000202                BEIP=192.168.1.163                BEPort=22049



    要的结果是统计一下,各时段对应的超时毫秒的数量


    理论上也不复杂,能找出数据规律,进行分组统计而已,但问题在于:

    首先统计是上下文相关的,即通过上下文的数据相计算才能获取到相应的指标

    其次如何判断上下文的场景,根据几组字段判断都有问题,即得不到唯一的标示

    原来想着应该是轻而易举的事情,先把数据导入oracle吧

    有日期有时间,需要把文本的日期时间处理成oracle的date类型,可偏偏date类型不支持毫秒运算,第一个问题出来了,依赖于日志中已有的毫秒进行上下文计算又有一定的问题。

    先统计了再说吧

    select b.hours,

    case when overlap<10 then '<10ms'

    when overlap<20 then '10-20'

    when overlap<30 then '20-30'

    when overlap<40 then '30-40'

    when overlap<50 then '40-50'

    when overlap<60 then '50-60'      

    when overlap<70 then '60-70'

    when overlap<80 then '70-80'

    when overlap<90 then '80-90'  

    else '>90ms'

    end tt,

    count(*)

    from

    (

    select a.f,a.d from

    (

    select k,a,b,f,d,g,c,

    LAG(c, 1, 0) OVER (partition by f,d ORDER BY B,g) lastc,

    LAG(b, 1, 0) OVER (partition by f,d ORDER BY B,g) lastb,

    case when c - LAG(c, 1, 0) OVER (ORDER BY tt)>=0  then c - LAG(c, 1, 0) OVER (ORDER BY tt)

    else  c - LAG(c, 1, 0) OVER (ORDER BY tt) 1000 end aa

    from test6 t 

    ) a

    where a.g='ToFront()=TRUE' and a.aa>90 )

    order by f,d,b,g

    ) b

    group by b.hours,

    case when overlap<10 then '<10ms'

    when overlap<20 then '10-20'

    when overlap<30 then '20-30'

    when overlap<40 then '30-40'

    when overlap<50 then '40-50'

    when overlap<60 then '50-60'      

    when overlap<70 then '60-70'

    when overlap<80 then '70-80'

    when overlap<90 then '80-90'  

    else '>90ms'

    end


    结果统计出来了,结果非预期的,又对几条数据进行了统计和明细的对比,发现确实有些小问题,可问题出在哪里,也说不清楚。

    为了解释清楚这个问题,还是对数据加上行号吧,再次进行对比,发现数据的位置变化了,和原本的日志顺序是不一样的。


    为了解决这个问题,还是用rownum加上表数据生成到另外一张测试表吧,再去看看行号和日志的顺序是否能够对应,却发现日志的插入顺序和行号是不一致的!


    又问了下同事,业务逻辑到底是怎样的,答曰:日志中上下文的顺序是很严格的


    看来需要彻底解决行号问题了。

    又在Excel中做了一下测试,Excel做测试很容易,先获取上条记录的毫秒信息,再进行排序,再把数据进行筛选,然后再进行分组判断,最后进行交叉表的生成。

    对应大数据量来说,Excel的拖拉显然就满了很多,其次还需要函数、排序、复制数据,总的来说还是比较耗时的。


    还是想想怎么解决行号问题吧,确保行号就是数据的原始顺序,首先加了一个sequence,后来又在该表中增加了一个触发器,然后把数据重新导入一遍

    create or replace trigger trigger_test6

    before insert on test6 

    for each row

    declare

    begin

    select tt.nextval into :new.tt from dual;

    end trigger_test6;


    再去验证数据的顺序,这次才算正常了

    数据正常了,业务逻辑就简单多了,只需要把最内核的部分修改一下,按行号排序即可

    select rr,k,a,b,f,d,g,c,

    LAG(c, 1, 0) OVER (ORDER BY tt) lastc,

    LAG(b, 1, 0) OVER (ORDER BY tt) lastb     

    from test6 t 


    统计完成后,再拷贝到Excel中进行数据透视表转换,再把表格数据拷贝出来,加一些美观信息即可。


    该件事情还是没有得到完美解决

    主要是毫秒的处理,理论上是时间的直接相减即可,可由于Oracle的date类型无法直接处理,只能采用日志中的毫秒字段进行相减了,碰到相减为负的,则再加回来1000,多少有些问题。

    再其次, oracle导入时的数据顺序有问题,不过我想也许是我自己还没找解决问题的根本原因吧。数据分析培训


  • 相关阅读:
    PAT甲级——A1148 WerewolfSimpleVersion【20】
    kruskal算法【最小生成树2】
    prim算法【最小生成树1】
    最小生成树
    关键路径详解
    「日常训练&知识学习」树的直径(POJ-1849,Two)
    「日常训练」Balancing Act(POJ-1655)
    「日常训练」Duff in the Army (Codeforces Round #326 Div.2 E)
    「题目代码」P1054~P1059(Java)
    「日常训练」All Friends(POJ-2989)
  • 原文地址:https://www.cnblogs.com/amengduo/p/9587202.html
Copyright © 2020-2023  润新知