一、数据集有数据对象组成。一个数据对象(样本、实例、数据点、对象、数据元组)有代表一个实体。
二、属性类型
属性是一个数据字段,表示数据对象的一个特征。属性可以是:标称、二元、序数、数值
观测是给定属性的观测值。
1、标称属性:一些对象的名称。
2、二元属性:布尔属性。
3、序数属性:值之间存在有意义的程度评定。
4、数值属性:存在大小的定量。(区间标度、比率标度)
{
区间标度:可以比较合定量之间的差。没有固有的零点。
比率标度:有固有的零点,可以计算倍数比例。
}
5、离散属性:有限或者无限可数个值,可以不用整数表示。
6、连续属性:数值属性,一般用浮点数值。
7、数学期望:均值。
三、基本统计描述
基本统计描述可以用来识别数据的性质,筛选不符合主要性质的数据(噪声和离群点)
基本统计描述大体可分为:中心趋势、数据散布、图形显示
1、中心趋势:
均值—平均值
中位数—最中间位置的数值
众数—出现次数最多的数
中列数—最值的均值
2、数据散布:
极差—最大值和最小值的差值
分位数:属性值与概率的对应关系。概率:p=1/2N,0<p<1。
四分位数—数值依次大小排序,四等分
四分位数极差—Q3(0.75处的值)-Q1(0.25处的值)
五数概括—Min,Q1,中位数,Q3,Max
盒图— Min----------|Q1 |中位数 Q3|-------------------Max
方差—各个数据与平均值查的平方的平均值。属性和均值的偏离程度。
标准差—方差的平方根
3、图形显示:
条形图(柱形图、频率直方图):频率数据展示。
饼状图、分位数图、分为数-分位数图、
散点图:两个属性的关系趋势。
四、数据的相似性和相异性
1、数据矩阵:对象与属性的数组,即N个对象*P个属性
例如: Name Age Sex
A 16 1 —对象O1
B 16 1 —对象O2
C 16 1 —对象O3
[ O1Name ,O1Age,O1Sex
O2Name ,O2Age,O2Sex
O3Name ,O3Age,O3Sex ]
2、相异性矩阵:对象与对象的数组,即N个对象*N个对象。N个对象两两之间的相近度。
例如: Name Age Sex
A 16 1 —对象O1
B 16 1 —对象O2
C 16 1 —对象O3
[ 0
d(2,1) 0
d(3,1) d(3,2) 0 ]
d(i,j)是对象i与j之间的相异性度量。值越大差别越大。反之,相似性度量sim(i,j)=1-d(i,j)
下面就具体解释一下d(i,j)................
(1)标称属性的邻近性度量:用不匹配率来计算。公式: d(i,j)=(p-m)/p
p—属性总数,m—相同属性数。p-m即不相同的属性数。
(2)布尔属性的邻近性度量:
对象i | 对象j | |||
1 | 0 | sum | ||
1 | q | r | q+r | |
0 | s | t | s+t | |
sum | q+s | r+t | p=q+s+t+r |
现在我们找一下相似性:q和t。即,相似性度量:d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)
反之,相异性,就是不一样的度量值.。即,s和r,d(i,j)=(s+r)/p
当然当前我们计算的是对称的二元相异性。什么是对称的二元属性?无论是否,现实中都具有意义和重要性,同等重要。
接下来,非对称的二元相似性,假设,布尔值为0的在现实生活中没有太大的意义。
这样,非对称的二元相似性:sim(i,j)=q/p,因为原来的相似性可取值是:q和t,但是t没有太大的意义。
(3)数值属性的邻近性度量:欧几里得距离、曼哈顿距离、闵可夫斯基距离。。。
对于数值属性的邻近性计算,首先争取可以缩小数值域。比如[100,101]---->[0.1,0.101]
欧几里得距离:两个对象被p个对象所描述。即,i=(Xi1,Xi2...,Xip) , j=(Xj1,Xj2...,Xjp)
那么两个对象的欧几里得距离:d(i,j)=sqrt( (Xi1-Xj1)^2+(Xi2-Xj2)^2 )
这样得出欧几里德有下面几个特征:
d(i,j)>=0 ; d(i,i)=0 ; d(i,j)=d(j,i) ;
d(i,j)<=d(i,k)+d(k,j)