1、 统计学与数据挖掘的区别:
统计学主要利用概率论建立数学模型,是研究随机现象的常用数学工具之一。
数据挖掘分析大量数据,发现其中的内在联系和知识,并以模型或规则表达这些知识。
虽然两者采用的某些分析方法(如回归分析)是相同的,但是数据挖掘和统计学是有本质区别的:
一个主要差别在于处理对象(数据集)的尺度和性质。数据挖掘经常会面对尺度为GB甚至TB数量级的数据库,而用传统的统计方法很难处理这么大尺度的数据集。传统的统计处理往往是针对特定的问题采集数据(甚至通过试验设计加以优化)和分析数据来解决特定问题;而数据挖掘却往往是数据分析的次级过程,其所用的数据原本可能并非为当前研究而专门采集的,因而其适用性和针对性可能都不强,在数据挖掘的过程中,需要对异常数据及冲突字段等进行预处理,尽可能提高数据的质量,然后才经过预处理的数据进行数据挖掘。
另一个差别在于面对结构复杂的海量数据,数据挖掘往往需要采用各种相应的数学模型和应用传统统计学以外的数学工具,才能建立最适合描述对象的模型或规则。
总之,统计学在生物医学研究中常采用假设检验(或称显著性检验)方法,其侧重假设驱动(hypothesis-driven),即提出假设并加以检验;而数据挖掘则不具备这样的功能,其主要是数据驱动(data-driven),即从数据中发现规律并得到知识。
2、 数据挖掘分类
数据挖掘分为预测型(predictive)和描述型(descriptive)两大类型。预测型数据挖掘是利用从历史数据中发现的已知结果,推断或预测未知数据的可能值。描述型属于挖掘是识别数据中的模式(pattern)或关系,旨在探索被分析数据的内在性质。根据对象的性质和需要解决的具体问题,可以采用不同的数据挖掘方法。
预测型数据挖掘方法包括分类(classification)、回归分析(regression analysis)和时间序列分析(time series analysis)等;描述型数据挖掘方法包括聚类(clustering)、关联规则分析(association rule analysis)和序列分析(sequence analysis)等。