• discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现


    discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
    http://www.aboutyun.com/thread-8637-1-1.html
    (出处: about云开发)

    我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串。
    下面便是我们需要过滤的数据:

    183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"


    这里如果对日志不了解或则不了解日志分析,可能会产生问题?为什么过滤这条数据,就能达到清洗的目的。这里所讲的只是核心内容,对于运行mapreduce来处理,可以看后面的文章。我这里重点讲如何把上面的数据,过滤出我们想要的数据。
    我们需要什么数据,从about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书中,我们需要过滤出下面数据:

    1.ip地址
    2.访问时间
    3.url地址
    4.用户使用浏览器

    过滤分析

    1.ip地址获取
    上面ip地址还是比较好过滤的,分隔符为- -即可得到我们想要的数据
    ipField = line.split("- -")[0].trim();



    2.访问时间
    访问时间,想获取时间容易,但是想做一个文艺程序员还是得费点功夫。
    [01/Aug/2014:01:01:05 +0800] ,对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式,这种方式没有错,算是一个正常程序员所做的事 情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800,这里是由相关函数的。

    1. dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time);
    复制代码

    我们使用这个函数,将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。

    2014年8月1日 下午07时04分58秒


    如果你采用了这种形式20140801070458,这个既不是文艺程序员、也不是正常程序员所做的事情,就只剩下2比程序员这个职称了。
    ok,下面我们做的文艺一点。
    可是我们怎么才能得到下面时间,一个个进行组合,getYarn()+getMonth......等,完,又步入2比程序员的行列。

    1. 2014年8月1日 下午07时04分58秒
    复制代码

    这里介绍一个简单的方法

    1.         DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG);
    复制代码
    1. dateField = df1.format(dt);
    复制代码


    这样就完美解决这个问题,不需要组合,只需要getDateTimeInstance传递参数即可,更多的时间格式参考Java新api获取年月日时分秒


    3.url与浏览器的获取
    这里面关键是对转义字符的理解正确,比如如何以双引号作为分隔符,如何以括号为分隔符。


    解说完毕直接上代码:

    1. package www.aboutyun.com;
    2. import java.text.DateFormat;
    3. import java.text.ParseException;
    4. import java.text.SimpleDateFormat;
    5. import java.util.Date;
    6. import java.util.Locale;
    7. public class test {
    8.         public static void StringResolves(String line) throws ParseException {
    9.                 String ipField, dateField, urlField, browserField;
    10.                 // 获取ip地址
    11.                 ipField = line.split("- -")[0].trim();
    12.                 // 获取时间,并转换格式
    13.                 int getTimeFirst = line.indexOf("[");
    14.                 int getTimeLast = line.indexOf("]");
    15.                 String time = line.substring(getTimeFirst + 1, getTimeLast).trim();
    16.                 Date dt = null;
    17.                 DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,
    18.                                 DateFormat.LONG);
    19.                 dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US)
    20.                                 .parse(time);
    21.                 dateField = df1.format(dt);
    22.                 // 获取url
    23.                 String[] getUrl = line.split(""");
    24.                 String firtGeturl = getUrl[1].substring(3).trim();
    25.                 String secondGeturl = getUrl[3].trim();
    26.                 urlField = firtGeturl + "分隔符" + secondGeturl;
    27.                 // 获取浏览器
    28.                 String[] getBrowse = line.split(""");
    29.                 String strBrowse = getBrowse[5].toString();
    30.                 String str = "(KHTML, like Gecko)";
    31.                 int i = strBrowse.indexOf(str);
    32.                 strBrowse = strBrowse.substring(i);
    33.                 String strBrowse1[] = strBrowse.split("\/");
    34.                 strBrowse = strBrowse1[0].toString();
    35.                 String strBrowse2[] = strBrowse.split("\)");
    36.                 strBrowse = strBrowse2[1].trim();
    37.                 System.out.println(ipField);
    38.                 System.out.println(dateField);
    39.                 System.out.println(urlField);
    40.                 System.out.println(strBrowse);
    41.         }
    42.         public static void main(String[] args) throws ParseException {
    43.                 // TODO Auto-generated method stub
    44.                 String browser = "203.100.80.88 - - [01/Aug/2014:19:04:58 +0800] "GET /uc_server/avatar.php?uid=3841&size=small HTTP/1.1" 301 463 "http://www.aboutyun.com/forum.php" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36 SE 2.X MetaSr 1.0";
    45.                 test.StringResolves(browser );
    46.         }
    47. }

    运行结果如下:
     

  • 相关阅读:
    vs2005 配置winpcap
    qt 解决中文乱码问题
    [翻译] QT正则表达式
    使用QSetting 读写ini文件
    [转]GNOME快捷键
    华为面试题之大整数相加
    qt 程序windows 上发布
    win7英文版中文乱码问题
    CURL命令 Alex
    Sendfile机制 Alex
  • 原文地址:https://www.cnblogs.com/yunkaifa/p/3893594.html
Copyright © 2020-2023  润新知