什么是数据
大概的意思是一些定量或者定性的属性,比如一个人的身高体重,年龄,性别,婚姻状况等等。
数据预处理:主要包含以下主题
聚集:将两个或多个对象合并成单个对象
抽样:简单随机抽样(有放回和无放回),分层抽样,渐进抽样
维规约:通过创建新属性,将一些旧属性合并在一起降低数据集的维度。重要概念:维灾难和线性代数技术(PCA主成分分析和SVD奇异值分解)
特征子集选择:三种标准特征选择方法(嵌入,过滤,包装)
特征创建:三种创建新属性的方法(特征提取,映射数据到新的空间和特征构造)
离散化和二元化:二元化,连续属性离散化(非监督离散化,监督离散化),具有过多值的分类属性
变量变换:指用于变量的所有值的变换,两种重要的变量变换类型(简单函数变换和规范化)
信息
信息比数据高一个层面,数据通过处理才叫信息。
Data Rich,Information Poor
数据非常多,但是从数据中挖掘出有用的数据非常少
什么是大数据
大数据的特点:high-volume,high-velocity,high-variety(数据量大、数据产生的速度快、数据的类型多样)
麦肯锡对于大数据的定义:传统的方法无法处理的数据,存也存不下,处理也无法处理的数据。
什么是数据挖掘
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘是一个多学科交叉的邻域
知识发现 = 数据挖掘
数据帮助人们进行决策的过程
数据挖掘的过程(像软件开发的瀑布模型)
分类问题
数据挖掘的第一个问题是分类问题,先前有一些给出标签的样本,总结出每种类型的知识,然后利用这些知识对新的样本进行预测。
分类问题的核心是找出分界面(分界面可能是简单的直线或者多个直线或者是曲线)
如果模型过于复杂,可能导致过拟合的现象(图中的绿色分界线)
我们的数据集会被分成训练集和测试集,训练集用于生成模型,测试集用于预测模型。
聚类及其其他数据挖掘的方法
聚类与分类不同,聚类属于无监督学习,分类属于监督学习。
聚类将样本集分成由类似的对象组成的多个类别
线性回归
(参数和变量之间是线性的,而不是说最终的模型是线性的)
线性回归中的过拟合和欠拟合
数据的处理过程
数据清理—>数据整合—>数据规范化—>数据简化
并行计算
云计算
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
简单来说,云计算就是我们使用的时候才付费,平时不占用你自己的资源。
并行计算
并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题
大数据必须要并行计算。
数据挖掘需要 数据+模型+高性能计算 缺一不可
然而数据挖掘中,并不会有一个万能的算法,也不会有一个万能的参数,算法和参数的选择需要根据实际情况来确定。需要经验和不断的尝试来确定。(没有免费午餐定理)
参考书籍:《数据挖掘导论》
清华大学-数据挖掘:理论与算法(国家级精品课)