1、概念
用户列表:所有用户构成的集合
商品列表:所有商品构成的集合
用户行为:
- 显反馈(打分):精确
- 隐反馈(浏览日志、观看日志、购买日志等):量大
用户活跃度:用户交互的商品数
商品流行度:商品交互的用户数
长尾分布:越流行的商品,流行商品数越少;推荐冷启动一般推荐流行度高商品,一般情况推荐不流行商品
训练数据:用户和商品的交互关系列表
历史数据分出一大部分作为训练数据
测试数据:对训练出的模型测试
也是源自历史真实数据
模型:算法
2、指标
1、用户满意度:用户对推荐系统的满意程度,通过对用户调查或在线实验得到
2、方差:实际评分和推荐计算评分的差的平方和开方的平均值(多用)
用户 u 对商品 i 的评分
3、平均绝对误差
4、召回率:召回即找回
5、精确率
6、覆盖率:对所有用户进行推荐后,推荐的商品数总和 / 商品的总和
7、信息熵:衡量数据分布
p(i) 商品的流行度,一般是相对流行度,交互该商品的用户数,用户数越多,商品越流行;与此相对是用户活跃度,该商品交互的商品个数
8、基尼系数:衡量数据分布
9、多样性:推荐列表中物品两两之间的不相似性。多样性和相似性是对应的,假设s(i,j)E[0,1]定义了物品i和j间的相似度,则用户u的推荐列表R(u)的多样性定义:
10、新颖性:给用户推荐他们以前没有听说过的商品
11、惊喜度
12、信任度
13、实时性
14、健壮性