本笔记为自己学习之用,对笔记内容感兴趣的读者还请购买正版书籍《推进系统实践》,尊重作者著作权益!
第1章 好的推荐系统
1.1 什么是推荐系统
推荐系统的基本任务联系用户和物品,解决信息过载问题:
- 帮助用户发现他们感兴趣的信息;
- 将信息推送给对他们感兴趣的用户。
解决信息过载问题代表性的方案有:
- 分类目录:雅虎、hao123、360、搜狗等网址站导航;
- 搜索引擎:谷歌,百度等,需要用户主动提供准确的关键词来寻找信息;
- 推荐系统:(通过分析用户的历史行为给用户兴趣建模)在用户没有明确目的的时候,帮助他们发现感兴趣的新内容。推荐系统能可以更好地发现长尾物品(The Long Tail)。
1.2 个性化推荐系统的应用
- 个性化推荐系统存在于各大网站之中,通过分析大量用户的行为日志,给不同用户提供不同的个性化页面展示,来提高网站的点击率和转化率。
- 不同的网站使用不同的推荐技术,一般都由三部分组成:前台展示页面、后台日志系统、推荐算法系统。
广泛应用推荐系统的领域有:
1.2.1 电子商务:亚马逊、淘宝、京东等
亚马逊前首席科学家Andreas Weigend曾经在斯坦福讲过一次推荐系统的课,同听课同学透露,亚马逊有20%-30%的销售来自于推荐系统。
CEO Jeff Bezos 也曾说过亚马逊相对于其他电子网络网站的最大优势在于其个性化的推荐系统。
1.2.2 电影和视频网站:Netflix、YouTube、YouKu、爱奇艺等
NetFlix在宣传资料中宣称一,有60%的用户通过其推荐系统找到自己感兴趣的电影和视频。
1.2.3 个性化音乐网络电台
先天满足成功应用推荐系统的两个条件: 信息过载;用户大部分时候没有特别明确的需求。
2011年Recsys大会,Pandora研究人员总结了音乐推荐的特点:
1. 物品空间大;
2. 消费每首歌的代价很小;
3. 物品种类丰富;
4. 听一首歌耗时很少;
5. 物品重用率高;
6. 用户充满激情;
7. 上下文相关;
8. 次序很重要;
9. 很多播放列表资源;
10. 不需要用户全神贯注;
11. 高度社会化。
1.2.4 社交网络:QQ,Facebook,微信等
个性化物品推荐;
信息流会话推荐;
给用户推荐好友。
1.2.5 个性化阅读,今日头条,网易新闻客服端
1.2.6 基于位置的服务,百度地图,大众点评等
1.2.7 个性化邮件
1.2.8 个性化广告
上下文广告:谷歌Adsense;
搜索广告:百度凤巢,竞价排名;
个性化展示广告:雅虎做得最好,并发表了大量论文。
QQ,Facebook,微信等因为拥有大量用户个人资料,无疑更容易获得这方面的成功。
1.3 推荐系统评测
完整的推荐系统三个参与方:用户,物品提供方,提供推荐系统的网站,好的推荐系统能够实现三赢。
准确预测、扩招用户视野、发现长尾商品。
1.3.1 推荐系统实验方法
新的推荐算法上线,需要通过以下三个实验:
a. 离线实验(用户行为数据,训练集,测试集):很多离线指标优于现有算法;
b. 用户调查:用户满意度不低于现有算法;
c. 在线实验:AB测试确定关心的指标优于现有算法。
1.3.2 评测指标
1. 用户满意度
2. 预测准确度(评分预测,TopN推荐)
3. 覆盖率(马太效应)
4. 多样性
5. 新颖性
6. 惊喜度
7. 信任度
8. 实时性
9. 健壮性(反作弊)
10. 商业目标
1.3.3 评测维度