• 数据挖掘与机器学习笔记


    数据集资源索引

    del.icio.us 链接推荐系统

    MovieLens 电影评价系统 http://www.grouplens.org/73

    Zebo 偏好聚类 http://www.Zebo.com/

    上千份网页文件 http://kiwitobes.com/wiki

    Kayak旅游类垂直搜索引擎 http://www.kayak.com/abs/api/search

    一:协同过滤

    数据集:用户对电影的评分

    算法:几何距离、皮尔逊系数

    要点:

    1.通过相关性加权给分数加权,得到用户对电影评分的预测

    2.协调过滤分为两种,基于用户和基于物品的。后者的相关性可以预先计算好,从而加快过滤速度。对于稀疏的数据集,基于物品的过滤更优,对于密集数据集两者都一样。

    二:发现群组(聚类)

    数据集:博客、小说、歌词

    算法:分级聚类、K均值聚类、Tanimoto系数(计算交集与并集的比率)、多维缩放

    要点:分级聚类有两种,列聚类和行聚类,当数据项数量大于变量数量的时候出现无意义聚类的可能会增加。K均值聚类的运行速度远远快于分级聚类,但每次运行的结果都会不同。

    三:搜索与排名

    数据集:爬虫采集网页

    算法:pageRank、神经网络、前馈法、反向传播

    备注:没有完全理解,需要继续实验和研究

    四:随机优化 

    数据集:无

    算法:随机搜索、爬山法、退火法、遗传算法

    要点:没有任何一种算法一定会比随机搜索更优,后面三种算法只会在最优解附近一定是较优解时更具效率。 

  • 相关阅读:
    SpringMVC的自定义校验器
    Spring 国际化 异常:No message found under code 'message' for locale 'zh_CN'.
    《Redis实战》学习实践
    博客系统开发问题
    牛人博客
    Lambda表达式
    红黑树
    配置mysql的主从复制
    mysql 存储过程入门
    一个稍复杂的mysql存储过程
  • 原文地址:https://www.cnblogs.com/monxue/p/3485909.html
Copyright © 2020-2023  润新知