• 《数据挖掘导论》读书笔记(一)—— 绪论


    书名:数据挖掘导论(Introduction to Data Mining)
    作者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
    出版社: 人民邮电出版社
    译者: 范明 / 范宏建
    出版年: 2010-12-10
    ISBN: 9787115241009

    第1章 绪论

    什么是数据挖掘

    数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

    数据挖掘要解决的问题

    传统数据分析技术遇到的实际问题:
    可伸缩:需要处理海量数据,算法必须是可伸缩的(scalable),可能需要新的数据结构等。
    高维性:需要处理高维数据,某些数据分析算法,随着维度的增加,计算复杂度迅速增加。
    异种数据和复杂数据:需要处理异种和复杂数据,如半结构化数据,传统的数据分析方法只能处理包含相同类型属性的数据集。
    数据的所有权与分布:需要处理的数据不一定存放在同一个站点或归属同一个机构,这就需要开发分布式数据挖掘技术。
    非传统的分析:传统的统计方法基于一种假设-检验模式,即提出假设,设计实验,分析数据,费力劳神。

    数据挖掘与其他学科

    数据挖掘利用了如下一些领域的思想:

    • 来自统计学的抽样、估计和假设检验;
    • 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论;
    • 以及最优化、进化计算、信息论、信号处理、可视化和信息检索等其他领域;
    • 数据库系统提供有效的存储、索引和查询处理;
    • 高性能并行计算和分布式技术处理海量数据集。

    数据挖掘的任务

    • 预测任务
      根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量(target variable)因变量(dependent variable),而用来做预测的属性被称为解释变量(explanatory variable)自变量(independent variable)
    • 描述任务
      其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹、异常)。本质上,描述性任务通常是探索性的,并且常常需要后续处理技术验证和解释。

    本书涉及的主题

    • 预测建模(predictive modeling)
      以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。预测建模可用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动。
    • 关联分析(association analysis)
      用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析可用来找出具有相关功能的基因组,理解地球气候系统不同元素之间的联系。
    • 聚类分析(cluster analysis)
      旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似。聚类分析可用来对顾客进行分组,找出显著影响地球气候的海洋区域。
    • 异常检测(anomaly detection)
      识别其特征显著不同于其他数据的观测值,这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测课用来检测欺诈行为,判断生态系统扰动。
  • 相关阅读:
    CSS基本相关内容中秋特别奉献
    JavaScript基础
    jQuery(内涵: jquery选择器)
    ADO.NET(内涵效率问题)
    三层实例(内涵Sql CRUD)
    数据库的应用详解二
    三层相关案例(及常见的错误)
    Java中生成唯一ID的方法
    Postgres 的 Array 类型
    java的错误和异常的区别
  • 原文地址:https://www.cnblogs.com/husterzxh/p/9917218.html
Copyright © 2020-2023  润新知