• lecture 4


    5. The arithmetic mean minimises squared Euclidean distance

    算数平均值可以使squared Euclidean distance最小(squared Euclidean distance指这个点到dataset里所有点的距离平方之和)

    如果用geometric median的话可以使total Euclidean distance最小,但是对于多变量数据而言,很难求到geometric median

    如果严格要求所求的点是给定点中的一个,称为medoid,否则称为centroid;寻找medoid使需要我们一个点一个点的计算

    outlier会很大程度的影响geometric median

    6. nearest centroid classifier针对每一个class求出对应的cetroid,当有新加入的点事,看新的点离哪个cetrold更近就属于哪个class。有的时候class不集中于一个位置,而是分散成几个区域,这个时候可以找到多个cetrold,使结果更精确

    7. nearest neighbour即最近的点,k-Nearest neighbour即选取k个最近的点,比如用于binary classification时,针对第一个class对该k个点进行筛选,符合为1,不符合为0,求和;同理对第二个进行

    8. 因为在求距离时,范围不一样会导致数据之间无法进行比较,故而需要进行normalization

    其中xjr是实际的距离,xjr'是normalised value(0, 1中间的一个值)

    为了防止新的数值比max大,可选取一个较大但目前没有出现的值;若已经出现这样的情况可以设为1

    k最好小于20,不然会不准确;kNN会很慢

    1NN,low bias high variance;随着k的增加bias会增加但是variance会减少(当k等于总共数据的数量,每个新点都要考虑全部点,如果在这个基础上根据距离调整占比,称为Shepard‘smethod)

    9. distance weighted kNN会根据距离调整占比,如w=1/dis,一般情况下距离越近越重要

    #可以用binary search寻找最近的K个点,如果要找的点很多,可以估计距离而不是实际求得

    tutorial

     

  • 相关阅读:
    激活第一个CPU
    每CPU变量
    在 Vue中使用layui日历控件,标注重要日子
    手机号,银行卡断开方式
    下载文件流
    使用class关键字创建类组件、props参数
    class继承关键字extends和super
    用于判断文件是已什么结尾的
    flex一些属性
    类组件
  • 原文地址:https://www.cnblogs.com/eleni/p/12381507.html
Copyright © 2020-2023  润新知