大数据量下协同推荐的难点与优化方法

大数据量下协同推荐的难点与优化方法
大数据量是指百万级别以上
协同推荐的算法细节在这里就不论述了，网上有很多文章介绍算法的原理的。

1. 难点一：矩阵过大

在协同推荐中，第一步是构建用户和物品的矩阵，例如：

评分用户A 用户B

物品A 1 2

物品B 3 4

物品C 1 4

当用户量和物品量都比较小的时候，例如几千，几万，这样构建矩阵是没问题的，但是如果用户量和物品量去到几百万，几千万的时候，这样就不能构建了，因为内存顶不住。

假如用户量和物品量都是100万，评分用int类型，也就是4字节存储
那就需要100kw100kw4的内存量，也就是4TB。不要说内存，硬盘也扛不住这个量。

2.难点二：推荐计算量大

如果来一个新用户C，需要把新用户C加入到矩阵，
然后计算：
1. 计算C和矩阵其他用户的相似度
2. 通过相似度，计算C对所有物品的评分预测
3. 获取评分预测最大的N个物品
如果做热计算（用户请求推荐接口时做计算），这个计算很难做到几秒内返回，所以满足不了产品的需求（因为用户等不及）
如果做冷计算（预先为用户计算好，例如每天晚上为所有用户计算推荐物品），在大用户量的前提下，这个计算用时和存储空间的成本都是很大的

3.难点一和二的解决方法：

解决方法是可以修改协同推荐的逻辑
修改为：
1. 计算物品之间的相似度，对每个物品，计算与之相似度最大的N个物品，存储下来
2. 对于每个用户，获取他对所有物品的评分，用每个物品的评分，乘以这个物品最相似的N个物品的相似度，得到这个用户对这些个物品的预测评分
3. 获取预测评分最好的N个物品，推荐给用户
这样的特点
1. 存储空间减少：物品数*N就可以了，N一般是1000或者10000
2. 热计算速度快，耗时的相似度计算可以放在冷计算，热计算只有乘计算，比较简单，速度快（当然也可以预先为部分活跃用户计算推荐物品，进一步提升推荐速度）
3. 用户冷启动较快，物品冷启动较慢。所以适合对新物品不太敏感的产品。
4. 推荐精度会有所下降，因为只获取相似度最高的N个物品，而不是全部。但是总体效果还可以。
4.难点三：相似度算法耗资源，算法复杂度高

协同推荐，要计算物品和物品之间，或者用户和用户之间的相似度。常用的相似度算法是余弦相似度，这个计算较为复杂，耗CPU资源。
复杂度也较高，是O(N的平方)，所以优化余弦相似度算法的计算，对整体的计算速度收益较大。

5.余弦相似度的优化方法：
1. 分子是0，不计算分母
  计算相似度时，先计算分子，如果分子是0，就不需要计算分母了，这样可以节省时间
2. 去除两个向量相同列的数据都是0的列
  例如向量A是(1,0,1,3)，向量B是(2,0,3,4)，两个向量的第二个列的值都是0，所以可以把这列去除，改为计算向量(1,1,3)和 (2,3,4)的相似度，计算结果和去除前一样。对于较为稀疏的矩阵，这个优化效果很明显。
未经同意，请不要转发
相关阅读:
041.PGSQL-pgsql常用命令-查看日志文件大小、数据目录、运行日志相关配置、当前lsn
041.PGSQL-pgsql时间日期错误问题，原来是系统时间问题，使用远程的NTP时间服务器来提供时间的话，需要使用timedatectl设置将NTP时间同步开启。
040.PGSQL-备份和恢复-增量备份-创建基础备份
 039.PGSQL-备份和恢复-增量备份-开启wal归档、并设置定时清理备份之后的wal文件
 037.PGSQL-事务 savepoint 保存点、rollback to 回滚
 硬件黑客之无线电安全 --- Proxmark3 RDV4 套件
 我有一个想法。。。
硬件嘿客之嘿客仓库
 WPA GPU基准测试
 什么是家用路由器，带你重新认识一下
原文地址：https://www.cnblogs.com/Xjng/p/11323228.html

评分	用户A	用户B
物品A	1	2
物品B	3	4
物品C	1	4

大数据量下协同推荐的难点与优化方法

1. 难点一：矩阵过大

2.难点二：推荐计算量大

3.难点一和二的解决方法：

4.难点三：相似度算法耗资源，算法复杂度高

5.余弦相似度的优化方法：