• Isolate randomforest检测异常点的非监督方法


    由于异常数据的两个特征(少且不同: few and different)

    1. 异常数据只占很少量;
    2. 异常数据特征值和正常数据差别很大。

    iTree的构成过程如下:

    l    随机选择一个属性Attr;

    l    随机选择该属性的一个值Value;

    l    根据Attr对每条记录进行分类,把Attr小于Value的记录放在左女儿,把大于等于Value的记录放在右孩子;

    l    然后递归的构造左女儿和右女儿,直到满足以下条件:

    l      传入的数据集只有一条记录或者多条一样的记录;

    l      树的高度达到了限定高度;

      iTree构建好了后,就可以对数据进行预测啦,预测的过程就是把测试记录在iTree上走一下,看测试记录落在哪个叶子节点。iTree能有效检测异常的假设是:异常点一般都是非常稀有的,在iTree中会很快被划分到叶子节点,因此可以用叶子节点到根节点的路径h(x)长度来判断一条记录x是否是异常点;

     

  • 相关阅读:
    springboot启动后执行某些动作
    Virtualbox的nat网络
    xshell6
    day01 K8S
    Nginx的日志文件切割
    virtualbox磁盘空间大小调整
    装修柜子木台面
    mybatis 批量in 多个字段写法
    jenkins shell常用配置
    activiti工作流引擎数据库表结构
  • 原文地址:https://www.cnblogs.com/wuxiangli/p/7283858.html
Copyright © 2020-2023  润新知