• 基于数据挖掘的人口变动规律1


    摘要

    1.通过属性规约和属性相关分析对数据进行预处理

    2.对预处理后的属性采用信息增益方法构建决策树

    3.对决策树表示的知识利用决策表的规则合并方法进行合并

    4.最终得出人口变动规律:未婚的高学历人口和未婚、低学历的年轻人口有较高的流动率,老年人口流动率较低,其他人口流动率一般。

    引言

    什么是数据挖掘?

    数据挖掘是从大量不完全,有噪声,模糊,随机的数据中提取隐含在其中的人们事先不知道的,但有用的信息和知识的过程。

    数据预处理

    为什么进行数据预处理?

    由于人口数据中存在着许多与数据挖掘任务不相关,冗余的属性,这些属性可能会减慢数据挖掘的进程,因此需要删除。

    属性子集选择

    进行属性子集选择,通过删除不相关或冗余的属性来减少数据量。目的是为了找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

    如何进行属性子集选择?

    通常使用压缩搜索空间的启发式算法(贪心算法)。策略是做局部最优选择,期望由此导致全局最优解。

    使用以下技术:

    1.逐步向前选择:由空属性集作为归约集开始,确定原属性集中最好的属性,将其添加到归约集。然后进行迭代。

    2.逐步向后删除:该过程由整个属性集开始。

    3.逐步向前选择和逐步向后删除的组合

    4.决策树归纳

    属性规约(AOI)

    操作:

    ①属性消除:它基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且(a)该属性无法进行泛化操作(如:没有定义相应的概念层次树),或(b)它更高层次概念是用其它属性描述的,这时该属性就可以从数据集中消去.

    ②属性泛化:它是基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且该属性存在一组泛化操作,则可以选择一个泛化操作对该属性进行处理。

    控制泛化过程的方法:

    ①属性泛化阈值控制:该技术就是对所有属性统一设置一个泛化阈值,或每个属性分别设置一个阈值;若一个属性不同取值个数大于属性泛化阈值,就需要对相应属性作进一步的属性消减或属性泛化操作。数据挖掘系统通常都有一个缺省属性阈值(一般从2到8)

    ②泛化关系阈值控制:若一个泛化关系中内容不相同的行数(元组数)大于泛化关系阈值,这就需要进一步进行相关属性的泛化工作。否则就不需要作更进一步的泛化。通常数据挖掘系统都预置这一阈值(一般为10到30)

    这两个技术可以串行使用,即首先应用属性阈值控制来泛化每个属性;然后再应用泛化关系阈值控制来进一步减少泛化关系的(规模)大小。

    属性构造

    根据已有属性集构造新的属性,以帮助数据挖掘过程。

    构造属性:变动状态。

    属性相关分析

    确定了目标变量后,需要进行关联度分析,删除那些与目标变量变动状态无关的变量。最终确定可用于数据挖掘的属性。

    决策树的构建

    选择具有最高信息增益的属性作为当前节点的判断属性。

    规则提取与知识发现

    数据挖掘的最终目标是知识发现,因此需要对上面的决策树进行规则提取,清晰地表达出新的知识。将决策树转换成相应的决策表。并且可以进一步优化。

    结论

    根据优化后的决策表得到结论。

    2017-10-14

  • 相关阅读:
    Sum Root to Leaf Numbers深度优先计算路径和
    Path Sum II深度优先找路径
    动态和静态链接库
    C/C++变量
    搜索
    基本格式
    随机数生成函数
    珍惜生命,我用Python 。今天开始学习Python
    在windows里hexo 博客创建步骤
    作为一个程序员,什么是脚本。必须要理解
  • 原文地址:https://www.cnblogs.com/helloluo/p/7667574.html
Copyright © 2020-2023  润新知