第六章
51、关联规则的挖掘的两个过程
1、找出所有的频繁项集
2、由频繁项集产生强关联规则
52、频繁项集挖掘方法
1、Apriori算法 2、挖掘频繁项集的模式增长方法
3、使用垂直数据格式挖掘频繁项集
53、提高Apriori算法的效率
1、基于散列的技术 2、事务压缩 3、划分
4、抽样 5、动态项集计数
第八章
54、如何进行分类
数据的分类是一个两阶段过程,包括学习阶段和分类阶段。
在第一阶段,建立描述预先定义的数据类或概念集的分类器
在第二阶段,使用模型进行分类,首先评估分类器的预测准确率
55、属性选择度量的方法
1、信息增益 2、增益率 3、基尼指数 4、其他属性选择度量
56、对于决策树归纳,有没有交互式方法,使得我们可以在构建时看到数据和数?关于数据的知识能够帮助数的构建吗?
基于感知分类(PBC)是一种基于可视化技术的交互式方法,允许用户在构建树时加上关于数据的背景知识。通过可视化地与数据交互,用户也可能逐步深入的理解数据。
57、如何对数据可视化,以支持交互式决策树构建
Pbc使用一种基于像素的方法观察具有类标号信息的多维数据。它采用扇形方法,把多维数据对象映射到一个被划分成d个扇形的圆。其中每个扇形代表一个属性。
第九章
58、什么是后向传播,以及后向传播如何工作
后向传播是一种神经网络学习算法。
后向传播通过迭代地处理训练元组数据集,把每个元组的网络预测与实际已知的目标值相比较进行学习。目标值可以是训练元组的已知类标号或者是连续值。对于每个训练样本,修改权重使得网络预测和实际目标值之间的均方误差最小。这种修改“后向”进行,即由输出层,经由每个隐藏层,到第一个隐藏层。
59、后向传播终止条件
1、前一周期所有的 Wij 都太小,小于某个指定的阈值
2、前一周期误分类的元组百分比小于某个阈值
3、超过预指定的周期数。
60、神经网络像一个黑盒。如何‘理解’后向传播神经网络学习结果?
神经网络的主要缺点是其知识的表示。用加权链连接单元的网络表示的知识让人很难解释。这激发了隐藏在训练后的神经网络中的知识及象征性地表示这些知识的研究。这些方法由网络提取规则和灵敏度分析。
61、如何确定近邻数k的值?
通过实验来确定。从k=1开始,使用检验集估计分类器的错误率。重复该过程,每次K增值1,允许增加一个近邻。可以选择产生最小错误率的k。一般而言,训练的元组越多,K的值越大。
62、惰性学习法
学习程序直到给定的检验元组分类之前的一刻才构造模型。在提供训练元组时只做少量工作,而在进行分类或数值预测时做更多地工作。