数据挖掘与机器学习笔记

数据集资源索引

del.icio.us 链接推荐系统

MovieLens 电影评价系统 http://www.grouplens.org/73

Zebo 偏好聚类 http://www.Zebo.com/

上千份网页文件 http://kiwitobes.com/wiki

Kayak旅游类垂直搜索引擎 http://www.kayak.com/abs/api/search

一：协同过滤

数据集：用户对电影的评分

算法：几何距离、皮尔逊系数

要点：

1.通过相关性加权给分数加权，得到用户对电影评分的预测

2.协调过滤分为两种，基于用户和基于物品的。后者的相关性可以预先计算好，从而加快过滤速度。对于稀疏的数据集，基于物品的过滤更优，对于密集数据集两者都一样。

二：发现群组（聚类）

数据集：博客、小说、歌词

算法：分级聚类、K均值聚类、Tanimoto系数（计算交集与并集的比率）、多维缩放

要点：分级聚类有两种，列聚类和行聚类，当数据项数量大于变量数量的时候出现无意义聚类的可能会增加。K均值聚类的运行速度远远快于分级聚类，但每次运行的结果都会不同。

三：搜索与排名

数据集：爬虫采集网页

算法：pageRank、神经网络、前馈法、反向传播

备注：没有完全理解，需要继续实验和研究

四：随机优化

数据集：无

算法：随机搜索、爬山法、退火法、遗传算法

要点：没有任何一种算法一定会比随机搜索更优，后面三种算法只会在最优解附近一定是较优解时更具效率。

相关阅读:
SpringMVC的自定义校验器
Spring 国际化异常：No message found under code 'message' for locale 'zh_CN'.
《Redis实战》学习实践
博客系统开发问题
牛人博客
Lambda表达式
红黑树
配置mysql的主从复制
mysql 存储过程入门
一个稍复杂的mysql存储过程

原文地址：https://www.cnblogs.com/monxue/p/3485909.html