数据的相关性
- 相关性用相关系数来度量,相关系数种类如下图所示。相关系数绝对值越大表是相关性越大,相关系数取值在-1–1之间,0表示不相关。
数据的相似性
- 相似度用距离来度量,相似度度量指标种类如下图所示。相似度通常是非负的,取值在0-1之间。距离越大,相似性越小,在应用过程中要注意计算的是相似度还是距离。
区别:
- 相关性是描述数据属性的,比如抽不抽烟和有没有得肺癌,是两个属性,两个属性之间有相关系数度量,如果相关属性为0,表示不相关,就是抽不抽烟和得不得肺癌没有关系
- 相似性是描述数据对象的,两个对象数据对象的相似性,也可以说是两个对象的邻近度,有多种度量方法,来表示对象间的相似程度
参考链接:相关性和相似性度量
https://blog.csdn.net/weixin_37801695/article/details/80622893