• 2.系统日志和事件的挖掘--系统日志的数据形式


    系统日志和事件的数据存储形式主要有两类:无结构的日志数据、结构化或者半结构化的日志事件数据。

    1.无结构的日志数据:

    每条日志或者时间都是以一条文本记录或者短文的形式存储在日志文件中,如常见的日志文件:linux日志、Apache服务器日志、Hadoop日志等的日志数据都是记录在一个纯文本日志文件中。整体来说,每条日志记录都是描述一个系统时间,且可以由一个标准事件的三元组构成(时间,地点,行为)。

    2.结构化或者半结构化的日志事件数据

    每条数据库记录代表一个日志或者时间,每条记录会将该日志事件的各个属性分开存储到标的各个字段中。如Windows Event Logs、数据库历史查询日志等。

    3.非结构化数据的转换

    在对非结构化数据进行分析之前,需要将文本转换为结构化的事件。即信息抽取的过程,有基于规则的,也有基于统计模型的,如CRF(Conditional Random Field)、聚类算法、基于短语标签的聚类算法等。关于这些后续将会详细介绍。

  • 相关阅读:
    https 适配
    SDWebImage 的简单使用方法
    第三方API使用的好习惯
    关于IPicture::Render函数
    标准模板库(STL)MAP容器使用详解
    STL容器
    c++ 遍历map的时候删除元素
    C++的try_catch异常
    Makefile 自动生成头文件的依赖关系 .
    调试过程中,内存泄露检测信息
  • 原文地址:https://www.cnblogs.com/fengxm/p/4127872.html
Copyright © 2020-2023  润新知