⼀种针对小样本精确聚类的聚类算法：层次聚类法。所谓更更加精准，⼀方面是指该聚类方法在执行过程中全程保持透明，另⼀面则是在真实的应用场景中，针对数据量不大（数千行左右）的数据，层次聚类往会有一个⾮常好的聚类效果

其首先会计算所有数据中最邻近的点，将其归为一个簇，然后取其质心作为簇的代表，参与到下一次最邻近点的选取的过程当中，简单来说就是不断的两两合并直到合并为一个簇为止

伪代码

1：计算两两元素的邻近度

2： repeat

3：合并最接近的两个簇

4：更更新邻近性矩阵，以反映新的簇和原来簇或元素之间的邻近度

5： Until 仅剩下⼀一个簇

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_iris
iris = load_iris()

iris.data

iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

from sklearn.cluster import AgglomerativeClustering
agClustering = AgglomerativeClustering(n_clusters=3)

agClustering.fit(iris.data)

AgglomerativeClustering(affinity='euclidean', compute_full_tree='auto',
            connectivity=None, linkage='ward', memory=None, n_clusters=3,
            pooling_func=<function mean at 0x0000027004F287B8>)

agClustering.labels_

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2,
       2, 0, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int64)

from sklearn.metrics import accuracy_score

accuracy_score(iris.target,agClustering.labels_)

0.23333333333333334

A-无监督学习算法示例：层次聚类

其首先会计算所有数据中最邻近的点，将其归为一个簇，然后取其质心作为簇的代表，参与到下一次最邻近点的选取的过程当中，简单来说就是不断的两两合并直到合并为一个簇为止

伪代码