应用背景:从当前数据集中发现并获取有用的信息的过程
数据挖掘称为从数据中发现知识,具体来讲就是从大规模的海量的数据中抽取人们所感兴趣的非平凡的,隐含的,事先未知的和具有潜在用途的模式或者知识。
数据挖掘的主要几个步骤有:
将存放在数据库只能存放数据经过数据清洗,数据抽取,转换,集成的等预处理过程存入数据仓库中。
一个商业化的数据挖掘是指:
数据源-数据预处理-数据探索-数据挖掘-数据呈现-决策支持
数据挖掘分析的对象具有特征:海量数据 高维数据 高复杂性的数据
数据挖掘的功能:
特征的抽取和识别 频繁模式相关性 关联规则与随机性 分类与预测 聚类分析 离群点分析 趋势与演化分析 其他模式与统计性的分析
十大经典算法:
决策树分类法 K-均值算法 支持向量机算法 Apriori算法(频繁模式的分析的算法) 最大期望估计算法 PageRank算法 集成弱分类器(AdaBoost算法) K最近相邻分类算法
朴素贝叶斯算法 分类与会归树的算法