• 【读书笔记-数据挖掘概念与技术】挖掘频繁模式、关联和相关性:基本概念和方法


    频繁模式:频繁出现的模式(可以是项集、子序列或子结构)

    基本概念

    • 支持度:support
    • 置信度:confidence
    • 关联规则:association
    1. 找出所有的频繁项集:出现次数≥最小支持计数
    2. 由频繁项集产生强关联的规则(定义最小支持度和最小置信度)
    • 频度(支持度计数):出现的次数
    • 频繁项集:项集I的相对支持度满足预定义的最小支持度阈值
    • 闭频繁项集:不存在真超项集Y使得Y与X在D中具有相同的支持度计数
    • X是D中的极大频繁项集:X是D中的极大频繁项集或极大项集,如果X是频繁的,并且不存在超项集Y使得X包含于Y,并且Y在D中是频繁的

    频繁项集挖掘方法

    priori(先验)算法

    1. 发现频繁项集

    2.产生关联规则

    提高Apriori算法的效率

    • 基于散列的计数
    • 事务压缩
    • 划分
    • 抽样
    • 动态项集计数

    挖掘频繁项集的模式增长方法——Frequent-Pattern Growth,FP-growth——频繁模式树(FP树)

    使用垂直数据格式挖掘频繁项集

    挖掘模式和极大模式

    ————————————————————————————————————————————————————————————————————————————

    模式评估方法

    ∵强规则不一定是有趣的

    ∴关联分析——>相关分析

    几个度量:

    • 提升度(与零事务有关)
    • X²分析(与零事务有关)
    • 全置信度(零不变度量)
    • 最大置信度(零不变度量)
    • Kulxynaki(零不变度量)
    • 余弦(零不变度量)

  • 相关阅读:
    分享一个安装PE到硬盘的软件
    [转]盘点谷歌旗下的那些逆天机器人(视频)
    ubuntu安装google 输入法
    Beyond Compare 3.3.8 build 16340 + Key
    don't panic !
    Python3 list sort排序
    《操作系统、预防进程死锁的银行家算法》
    《操作系统_时间片轮转RR进程调度算法》
    《操作系统_FCFS和SJF》
    Hive初步使用、安装MySQL 、Hive配置MetaStore、配置Hive日志《二》
  • 原文地址:https://www.cnblogs.com/XBWer/p/4331294.html
Copyright © 2020-2023  润新知