数据集资源索引
del.icio.us 链接推荐系统
MovieLens 电影评价系统 http://www.grouplens.org/73
Zebo 偏好聚类 http://www.Zebo.com/
上千份网页文件 http://kiwitobes.com/wiki
Kayak旅游类垂直搜索引擎 http://www.kayak.com/abs/api/search
一:协同过滤
数据集:用户对电影的评分
算法:几何距离、皮尔逊系数
要点:
1.通过相关性加权给分数加权,得到用户对电影评分的预测
2.协调过滤分为两种,基于用户和基于物品的。后者的相关性可以预先计算好,从而加快过滤速度。对于稀疏的数据集,基于物品的过滤更优,对于密集数据集两者都一样。
二:发现群组(聚类)
数据集:博客、小说、歌词
算法:分级聚类、K均值聚类、Tanimoto系数(计算交集与并集的比率)、多维缩放
要点:分级聚类有两种,列聚类和行聚类,当数据项数量大于变量数量的时候出现无意义聚类的可能会增加。K均值聚类的运行速度远远快于分级聚类,但每次运行的结果都会不同。
三:搜索与排名
数据集:爬虫采集网页
算法:pageRank、神经网络、前馈法、反向传播
备注:没有完全理解,需要继续实验和研究
四:随机优化
数据集:无
算法:随机搜索、爬山法、退火法、遗传算法
要点:没有任何一种算法一定会比随机搜索更优,后面三种算法只会在最优解附近一定是较优解时更具效率。