1、数据挖掘的特点:
数据挖掘的数据源必须是真实的;
数据挖掘所处理的数据必须是海量的;
查询一般是决策制定者(用户)提出的随机查询;
挖掘出来的知识一般是不能预知的;
2、数据挖掘算法的组成:
模型或模式结构;
数据挖掘任务;
评分函数;
搜索和优化方法;
数据管理策略;
3、根据数据分析者的目标,可以将数据挖掘任务分为:
模式挖掘:致力于从数据中寻找模式,比如寻找频繁模式,异常点等;
描述建模:目标是描述数据的全局特征。
预测建模:根据现有数据先建立一个模型,然后应用这个模型来对未来的数据进行预测。
当被预测的变量是范畴型(category)时,称之为分类;
当被预测的变量是数量型(quantitative)时,称之为回归。
描述和预测的关键区别是:预测的目标是唯一的变量,如信用等级、疾病种类等,而描述并不以单一的变量为中心。
描述建模的典型例子是聚类分析。
4、评分函数
评分函数用来对数据集与模型(模式)的拟合程度进行评估。
不存在绝对“正确”的模型(模式),所有模型(模式)都是对现有数据的一种近似。从这个角度来讲,如果模型(模式)没有随着现有数据的变化而剧烈变化,这个模型(模式)就是能够接受的了。换句话说,对数据的微小变化不太敏感的模型(模式)才是一个好的模型(模式)。
评分函数衡量了提出的模型(模式)与现有数据集的拟合程度。
搜索和优化的目标是确定模型(模式)的结构及其参数值,以使评分函数达到最小值(或最大值)。
5、搜索和优化方法
如果模型(模式)的结构已经确定,则搜索将在参数空间内进行,目的是针对这个固定的模型(模式)结构,优化评分函数。
6、组件化思想的应用
但是,随着数据集的增大,计算效率将变得越来越重要。对于海量数据,必须在模型(模式)的完备性和计算效率之间进行平衡,以期对现有数据达到某种程度的拟合。