导学####
- 欧氏距离 平方
- 曼哈顿距离 一次方
- 马氏距离 协方差(先标准化再计算距离)(d(x_{i},x_{j})=sqrt{(x_{i}-x_{j}){T}s{-1}(x_{i}-x{j})}) s为数据的协方差
- 夹角余弦
sklearn cluster##
sklearn.cluster 模块提供的个聚类算法函数可以使用不同的数据形式作为输入
标准格式: [样本个数,特征个数]定义的矩阵形式
- 相似矩阵输入格式
即由[样本数目]定义的矩阵形式 DBSCAN,AffinityPropagation接受这种输入
算法名称 |
参数 |
可拓展性 |
相似性度量 |
K-means |
聚类个数 |
大规模数据 |
点间距离 |
DNSCAN |
邻域大小 |
大规模数据 |
点间距离 |
Gaussian Mixtures |
聚类个数以及其他超参 |
复杂度较高不适合大规模数据 |
马氏距离 |
Birch |
分支因子,阈值等其他超常参 |
大规模数据 |
欧氏距离 |
sklearn decomposition##
算法名称 |
参数 |
可拓展性 |
使用任务 |
PCA |
所降维度以及其他超参 |
大规模数据 |
信号处理 |
FastICA |
同上 |
超大规模数据 |
图形图像特征提取 |
NMF |
同上 |
复杂度较高不适合大规模数据 |
图形图像特征提取 |
LDA |
同上 |
大规模数据 |
文本数据 主题挖掘 |