一,数据模式
概念/类描述:特性化和区分 归纳,总结和对比数据的特性。
关联分析
分类和预测
可以用来预报某些未知的或丢失的数据值。
聚类分析
将类似的数据归类到一起,形成一个新的类别进行分析 最大类内的相似性和最小化类间的相似性。比如画圈。
孤立点分析
孤立点:一些与数据的一般行为或模型不一致的孤立的数据。 通常孤立点被作为“噪音”或异常被丢弃。但是在欺事件中可以通过罕见事件进行孤点分析而得出结论。比如银行信用卡 趋势和演变分析 描述行为随事件变化的对象的发展规律或趋势。比如时间数据库 趋势和偏差:回归分析 序列模式匹配:周期性分析 基于类性的分析 其它定向模式或统计分析。
曾转载过一篇博客说明几类问题http://www.cnblogs.com/wujin/archive/2013/05/14/3078102.html
二.数据模式是否有趣
1.它需要是被人理解
2.在某种程度上,对于新的或测试的数据是有效的
3.具有潜在效用
4.新颖的
5.符合用户确信的某种假设
模式兴趣度的客户和主观度量
客观度量:基于所发现模式的结构和关于它们的统计,比如支持度,置信度等。
主观度量:基于用户对数据的判断,比如:出乎意料的,新颖的,可行动的等等。
搜索有趣的模式:数据挖掘算法的最优化问题。
1.首先生成所有模式然后过滤那些无趣的
2.仅仅生成有趣的模式-数据查询优化
三.数据挖掘关联
要想学好数据挖掘,必须首先需了解以下内容
数据库系统
统计学
机器学习
算法
可视化
其他学科
四.数据挖掘的分类
一般功能分类
描述性的数据挖掘
预测性的数据挖掘
不同视角,不同的分类
根据所挖掘的数据库类型分类
根据所挖掘的知识类型分类
特征分析,区分,关联分析,分类聚类,孤立点分析
根据挖掘所用的技术分类
面向数据库的挖掘,数据仓库,OLAP
根据数据挖掘的应用分类
金融,电信,银行