数据挖掘——认识数据

一、数据集有数据对象组成。一个数据对象（样本、实例、数据点、对象、数据元组）有代表一个实体。

二、属性类型

属性是一个数据字段，表示数据对象的一个特征。属性可以是：标称、二元、序数、数值

观测是给定属性的观测值。

1、标称属性：一些对象的名称。

2、二元属性：布尔属性。

3、序数属性：值之间存在有意义的程度评定。

4、数值属性：存在大小的定量。（区间标度、比率标度）

　　　{　

　　　　区间标度：可以比较合定量之间的差。没有固有的零点。

　　　　比率标度：有固有的零点，可以计算倍数比例。

　　　}

5、离散属性：有限或者无限可数个值，可以不用整数表示。

6、连续属性：数值属性，一般用浮点数值。

7、数学期望：均值。

三、基本统计描述

基本统计描述可以用来识别数据的性质，筛选不符合主要性质的数据（噪声和离群点）

基本统计描述大体可分为：中心趋势、数据散布、图形显示

1、中心趋势：

　　　　　　均值—平均值

　　　　　　中位数—最中间位置的数值

　　　　　　众数—出现次数最多的数

　　　　　　中列数—最值的均值

2、数据散布：

　　　　　　极差—最大值和最小值的差值

　　　　　　分位数：属性值与概率的对应关系。概率：p=1/2N，0<p<1。

　　　　　　四分位数—数值依次大小排序，四等分

　　　　　　四分位数极差—Q3(0.75处的值)-Q1(0.25处的值)

　　　　五数概括—Min,Q1,中位数,Q3,Max

　　　　　　盒图— Min----------|Q1 |中位数 Q3|-------------------Max

　　　　　　方差—各个数据与平均值查的平方的平均值。属性和均值的偏离程度。

　　　　　　标准差—方差的平方根　　　　　　

3、图形显示：

　　　　　　条形图（柱形图、频率直方图）：频率数据展示。

　　　　　　饼状图、分位数图、分为数-分位数图、

　　　　　　散点图：两个属性的关系趋势。

四、数据的相似性和相异性

1、数据矩阵：对象与属性的数组,即N个对象*P个属性

　　例如： Name Age Sex

A 16 1 —对象O1

　　　　　　B 16 1 —对象O2

　　　　　　C 16 1 —对象O3

[ O1Name ，O1Age，O1Sex

　　　　　　O2Name ，O2Age，O2Sex

　　　　　　O3Name ，O3Age，O3Sex ]

2、相异性矩阵：对象与对象的数组，即N个对象*N个对象。N个对象两两之间的相近度。

　　例如： Name Age Sex

A 16 1 —对象O1

　　　　　　B 16 1 —对象O2

　　　　　　C 16 1 —对象O3

[ 0

　　　　　　d(2,1) 0

　　　　　　d(3,1) d(3,2) 0 ]

d(i,j)是对象i与j之间的相异性度量。值越大差别越大。反之，相似性度量sim（i，j）=1-d(i,j)

下面就具体解释一下d(i,j)................

（1）标称属性的邻近性度量：用不匹配率来计算。公式： d(i,j)=(p-m)/p

　　 p—属性总数，m—相同属性数。p-m即不相同的属性数。

（2）布尔属性的邻近性度量：

对象i	对象j
		1	0	sum
	1	q	r	q+r
	0	s	t	s+t
	sum	q+s	r+t	p=q+s+t+r

　现在我们找一下相似性：q和t。即，相似性度量：d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)

　　反之，相异性，就是不一样的度量值.。即，s和r,d(i,j)=(s+r)/p

　　当然当前我们计算的是对称的二元相异性。什么是对称的二元属性？无论是否，现实中都具有意义和重要性，同等重要。

　　接下来，非对称的二元相似性，假设，布尔值为0的在现实生活中没有太大的意义。

　　这样，非对称的二元相似性：sim（i，j）=q/p，因为原来的相似性可取值是：q和t，但是t没有太大的意义。

（3）数值属性的邻近性度量：欧几里得距离、曼哈顿距离、闵可夫斯基距离。。。

　　对于数值属性的邻近性计算，首先争取可以缩小数值域。比如[100,101]---->[0.1,0.101]

　　欧几里得距离：两个对象被p个对象所描述。即，i=(Xi1,Xi2...,Xip) , j=(Xj1,Xj2...,Xjp)

　　那么两个对象的欧几里得距离：d(i,j)=sqrt( (Xi1-Xj1)^2+(Xi2-Xj2)^2 )

　　这样得出欧几里德有下面几个特征：

　　d(i,j)>=0 ; d(i,i)=0 ; d(i,j)=d(j,i) ;

　　d(i,j)<=d(i,k)+d(k,j)

相关阅读:
SpringBoot--日期格式化
SpringBoot--使用redis实现分布式限流
SpringBoot--集成Shiro
xxl-job搭建、部署、SpringBoot集成xxl-job
SpringBoot--使用socket搭建聊天室
SpringBoot--数据库管理与迁移（LiquiBase）
SpringBoot--防止重复提交（锁机制---本地锁、分布式锁）
Springboot--元注解及自定义注解（表单验证）
java类对象的初始化顺序
java23种设计模式（三）单例模式

原文地址：https://www.cnblogs.com/sunchong/p/3940566.html