5. The arithmetic mean minimises squared Euclidean distance
算数平均值可以使squared Euclidean distance最小(squared Euclidean distance指这个点到dataset里所有点的距离平方之和)
如果用geometric median的话可以使total Euclidean distance最小,但是对于多变量数据而言,很难求到geometric median
如果严格要求所求的点是给定点中的一个,称为medoid,否则称为centroid;寻找medoid使需要我们一个点一个点的计算
outlier会很大程度的影响geometric median
6. nearest centroid classifier针对每一个class求出对应的cetroid,当有新加入的点事,看新的点离哪个cetrold更近就属于哪个class。有的时候class不集中于一个位置,而是分散成几个区域,这个时候可以找到多个cetrold,使结果更精确
7. nearest neighbour即最近的点,k-Nearest neighbour即选取k个最近的点,比如用于binary classification时,针对第一个class对该k个点进行筛选,符合为1,不符合为0,求和;同理对第二个进行
8. 因为在求距离时,范围不一样会导致数据之间无法进行比较,故而需要进行normalization
其中xjr是实际的距离,xjr'是normalised value(0, 1中间的一个值)
为了防止新的数值比max大,可选取一个较大但目前没有出现的值;若已经出现这样的情况可以设为1
k最好小于20,不然会不准确;kNN会很慢
1NN,low bias high variance;随着k的增加bias会增加但是variance会减少(当k等于总共数据的数量,每个新点都要考虑全部点,如果在这个基础上根据距离调整占比,称为Shepard‘smethod)
9. distance weighted kNN会根据距离调整占比,如w=1/dis,一般情况下距离越近越重要
#可以用binary search寻找最近的K个点,如果要找的点很多,可以估计距离而不是实际求得
tutorial