• 推荐系统(4)—— 推荐系统评价


    参考文档:https://mp.weixin.qq.com/s/IRq86H6-9HZYeFVxpwFUVQ

    1、推荐系统通常服务于某个具体业务,业务在不同的时间阶段、场景、用户群体下,都有不同的目标,需要灵活考虑。

    下面以资讯类APP举例说明:

    1. 不同的阶段:产品发展初期,我们更关注用户的粘性和留存,因此重点会放在用户的点击率、PV、阅读时长上。等到追求商业变现的阶段,更多考虑的就是付费率、广告点击量等商业指标。对应的,推荐系统在不同的阶段也要做相应调整。
    2. 不同的场景:搜索场景考虑的是用户的搜索结果点击排序,追求用完即走。但是feeds流考虑的是用户的CTR、阅读时长、内容多样性。两者完全不同,不可混在一起。因此,对于不同场景,我们可以使用完全不同的推荐模型,将场景隔离开。
    3. 不同的用户:新用户考虑的是快速留存,积攒PV。老用户考虑的是探索兴趣,诱导分享。此外,不同偏好的用户需求各不相同,财经的用户希望内容权威、及时、高效,情感的读者希望内容贴近生活,足够有趣。二者追求的指标显然不需要一致。

    考虑到各种不同的诉求,我们的评估方式也要灵活变化。

    2、对不同的场景和用户模型,设定单独的衡量标准。对不同的业务指标,拆解出推荐系统的上线与评估标准。

    所谓拆解,其实就是用高频变化的指标,去近似代表我们追求的长期业务指标。

    举个例子,在资讯类APP发展早期,我们希望提升日活用户数,提升用户的使用时长。但是只看这些结果指标,并不能指导我们改进业务。

    因此,我们可以把这些指标拆解成一些日常容易衡量评估的指标。比如日活用户数等于新增*留存,新增不是推荐系统直接影响的,这里暂不考虑。而留存取决于用户对我们产品的满意度,而满意度又近似等于人均PV(点击)、CTR(点击率)、阅读时长、播放完成率、评论、分享、收藏、点赞等等指标。

    由此,我们把推荐系统的评价指标,就拆成了以下这些:

    1. PV:阅读数量,通常我们用人均值代替。对于资讯类APP来说,PV通常意味着用户的使用深度,同时更多的PV也会带来更多的广告曝光和点击,因此PV是对商业模式的一种近似简化,通过灵敏的PV,来间接提升我们的商业收益。用于推荐算法模型训练的素材,其实最关键就是用户对各篇推荐内容点击与否的数据
    2. CTR:点击率,越高代表用户对你的推荐结果越满意。
    3. 阅读时长、播放完成率:阅读时长、播放完成率配合PV,可以规避掉一些无效点击,提升指标的有效性
    4. 评论、分享、收藏、点赞数:这些行为比一般的阅读更重,更能代表用户的偏好,这些指标的加入(权重计分形式),可以让推荐系统更准确把握用户兴趣
    5. 主观评估满意度、新颖性、惊喜度:这三项其实是偏主观的评价,之所以加入,是因为很多用户体验并不能用数据衡量,往往需要用户凭主观感受打分来反映。具体做法有很多种,比如1)给出两篇内容,让用户进行点对点的对比。(2)给单篇内容提供打分选项,建议用户从内容与自身偏好的相关性、内容的信息量等角度给予1~5分的评分。(3)以提出开放性问题的方式来收集用户对自己信息流的反馈
    6. 内容多样性:对用户来说,产品需要经常有新意,不能陷入信息茧房,因此要评估内容多样性指标。比如可以统计用户的展示历史中各种题材、类目、话题的丰富程度如何,丰富度越高代表个体体验的多样性越好。从内容生产的角度,还可以计算基尼系数、推荐覆盖率,来判断各个内容是否都被推出去了。

    具体在日常工作中,我们每次迭代推荐系统,通常都会进行AB实验,考虑对以上指标的影响,如果实验整体正向并且效果显著,那么我们会考虑把实验策略推全到全部用户上。

     

     

  • 相关阅读:
    Flex 布局教程:语法篇(转载)
    【Go】【Http】Go实现Http相关知识点
    【Git】Git相关开发流程
    【Go】杂七杂八GoLang
    【Go】初识Context与Context键值对的可能情况
    jmeter-通过json提取器 提取所有数据 给下个接口使用
    C# 后台调用存储过程超时处理方法,
    IE11脚本错误-调用的对象无效-
    IE11浏览器arrt,全选反选失效无效修改方法
    如何学习计算机知识
  • 原文地址:https://www.cnblogs.com/eilearn/p/14555688.html
Copyright © 2020-2023  润新知