推荐算法入门
1. 推荐算法知识架构
推荐算法有很多种,大体上可以将推荐算法分为以下几种:
- 协同过滤推荐算法(Collaborative Filter)
- 基于内容的推荐算法(Content-based Filter)
- 基于人口统计信息的推荐算法(Demographic-based)
- 混合推荐算法(Hybrid Recommender)
2. 协同过滤推荐算法(Collaborative Filter,CF)
因为这种推荐算法可以通过基于统计的机器学习算法来得到较好的推荐效果,在工程上容易实现,所以目前绝大多数应用的推荐算法都是CF。CF实现的方式有以下几种:
- 基于用户的推荐(Collaborative Filter of base on User )(user-base)
- 基于内容的推荐(Collaborative Filter of base on Item) (item-base)
- 基于模型的推荐(Collaborative Filter of base on model)(model-base)(目前最主流协同过滤类型,一大堆机器学习算法可以在这里找到用武之地)
Demo:CF算法入门demo Java版(建议先实现一下这个demo,可以帮助树立对于CF的信心)
user-base和item-base使用时的选择问题
一般来说,如果item数目不多,比如不超过十万,而且不显著增长的话,就用item-base好了。因为当item的数目不多并且不显著增长,说明item之间的关系在一段时间内相对稳定(对比user之间的关系),对于实时更新item-similarity的需求就降低了很多推荐系统效率提高很多,所以用item-base更优。反之,当item数目很多,建议用user-base。
CF小结
协同过滤作为一种经典的推荐算法种类,在工业界应用广泛,它的优点很多,模型通用性强,不需要太多对应数据领域的专业知识,工程实现简单,效果也不错。这些都是它流行的原因。
当然,协同过滤也有些难以避免的难题,比如令人头疼的“冷启动”问题,我们没有新用户任何数据的时候,无法较好的为新用户推荐物品。同时也没有考虑情景的差异,比如根据用户所在的场景和用户当前的情绪。当然,也无法得到一些小众的独特喜好,这块是基于内容的推荐比较擅长的。
3. 基于内容的推荐算法(Content-based Filter,CB)
CB的思想是这样的:根据用户在过去喜欢的内容,为用户推荐与其过去喜欢内容相似的内容。CB的关键在于内容相似性的度量,这是CB在运用过程中的核心。CB的过程一般包括以下三步:
- 内容表征(Item Representation):为每个item抽取出一些特征来表示此item。
- 特征学习(Profile Learning):你用一个用户过去喜欢(不喜欢)的item的特征数据,来学习出用户的喜好特征(profile),构建出模型。
- 生成推荐列表(Recommendation):通过比较上一步得到的用户特征(profile)与候选item的特征,为此用户推荐一组相关性最大的item。
CB的缺点
- 无法挖掘出用户的潜在兴趣(假设用于以前只留下了看历史文章的记录,那么CB就会一直给用户推荐历史文章,而无法发现用户可能更加喜欢看娱乐文章)
- 无法为新用户产生推荐(即“冷启动”问题)。
CB小结
不论是CF还是CB都有自己的局限性,目前的大部分推荐系统都是以CB以外的算法为主(比如CF),以CB为辅来组成一个混合推荐的系统。
4.基于人口统计信息的推荐算法(Demographic-based,DB)
基于人口统计学的推荐算法应该是最容易实现的推荐算法。因其仅使用用户的基本信息,比如年龄、性别等来衡量用户的相似性,然后便将和用户相似的其余用户偏好的物品推荐给当前用户了。
DB的优点
- 因为DB使用用户的基本信息数据,不涉及用户对物品的历史喜好,所以对于新用户来说,能够根据基本信息马上进行推荐,不存在CF和CB中的“冷启动”问题。
- 因为DB不依赖于任何物品信息,所以可以“领域独立”,意味着DB在不同物品领域均可使用。
DB的缺点
- DB仅仅基于用户的基本信息,推荐准确性不足,对于音乐、电影等对象的推荐,不能够起到很好的推荐效果。
- 用户的基本信息不好获取,比如年龄等。(在一些情况下,需要建模来获取用户的基本信息)
5.混合推荐算法(Hybrid Recommender,HR)
上面提到的CF、CB、DB以及另外的一些推荐算法存在的普遍问题就是优缺点并存,优缺点明显。为了能够获得一个更好的推荐算法,将许多的推荐算法融合起来作为一个整体来进行推荐是一个自然的想法。多种推荐算法融合好后的HR在理论上不会比任何一种单一的推荐算法差,但是HR的复杂度也会相应提高,所以在实际的使用中,使用HR进行推荐,并没有CF那么普遍。
文中如有错误或不足还望指出,十分感谢。——keep250