推荐系统（4）—— 推荐系统评价

推荐系统（4）—— 推荐系统评价
参考文档：https://mp.weixin.qq.com/s/IRq86H6-9HZYeFVxpwFUVQ

1、推荐系统通常服务于某个具体业务，业务在不同的时间阶段、场景、用户群体下，都有不同的目标，需要灵活考虑。

下面以资讯类APP举例说明：
1. 不同的阶段：产品发展初期，我们更关注用户的粘性和留存，因此重点会放在用户的点击率、PV、阅读时长上。等到追求商业变现的阶段，更多考虑的就是付费率、广告点击量等商业指标。对应的，推荐系统在不同的阶段也要做相应调整。
2. 不同的场景：搜索场景考虑的是用户的搜索结果点击排序，追求用完即走。但是feeds流考虑的是用户的CTR、阅读时长、内容多样性。两者完全不同，不可混在一起。因此，对于不同场景，我们可以使用完全不同的推荐模型，将场景隔离开。
3. 不同的用户：新用户考虑的是快速留存，积攒PV。老用户考虑的是探索兴趣，诱导分享。此外，不同偏好的用户需求各不相同，财经的用户希望内容权威、及时、高效，情感的读者希望内容贴近生活，足够有趣。二者追求的指标显然不需要一致。
考虑到各种不同的诉求，我们的评估方式也要灵活变化。

2、对不同的场景和用户模型，设定单独的衡量标准。对不同的业务指标，拆解出推荐系统的上线与评估标准。

所谓拆解，其实就是用高频变化的指标，去近似代表我们追求的长期业务指标。

举个例子，在资讯类APP发展早期，我们希望提升日活用户数，提升用户的使用时长。但是只看这些结果指标，并不能指导我们改进业务。

因此，我们可以把这些指标拆解成一些日常容易衡量评估的指标。比如日活用户数等于新增*留存，新增不是推荐系统直接影响的，这里暂不考虑。而留存取决于用户对我们产品的满意度，而满意度又近似等于人均PV（点击）、CTR（点击率）、阅读时长、播放完成率、评论、分享、收藏、点赞等等指标。

由此，我们把推荐系统的评价指标，就拆成了以下这些：
1. PV：阅读数量，通常我们用人均值代替。对于资讯类APP来说，PV通常意味着用户的使用深度，同时更多的PV也会带来更多的广告曝光和点击，因此PV是对商业模式的一种近似简化，通过灵敏的PV，来间接提升我们的商业收益。用于推荐算法模型训练的素材，其实最关键就是用户对各篇推荐内容点击与否的数据
2. CTR：点击率，越高代表用户对你的推荐结果越满意。
3. 阅读时长、播放完成率：阅读时长、播放完成率配合PV，可以规避掉一些无效点击，提升指标的有效性
4. 评论、分享、收藏、点赞数：这些行为比一般的阅读更重，更能代表用户的偏好，这些指标的加入（权重计分形式），可以让推荐系统更准确把握用户兴趣
5. 主观评估满意度、新颖性、惊喜度：这三项其实是偏主观的评价，之所以加入，是因为很多用户体验并不能用数据衡量，往往需要用户凭主观感受打分来反映。具体做法有很多种，比如1）给出两篇内容，让用户进行点对点的对比。（2）给单篇内容提供打分选项，建议用户从内容与自身偏好的相关性、内容的信息量等角度给予1～5分的评分。（3）以提出开放性问题的方式来收集用户对自己信息流的反馈
6. 内容多样性：对用户来说，产品需要经常有新意，不能陷入信息茧房，因此要评估内容多样性指标。比如可以统计用户的展示历史中各种题材、类目、话题的丰富程度如何，丰富度越高代表个体体验的多样性越好。从内容生产的角度，还可以计算基尼系数、推荐覆盖率，来判断各个内容是否都被推出去了。
具体在日常工作中，我们每次迭代推荐系统，通常都会进行AB实验，考虑对以上指标的影响，如果实验整体正向并且效果显著，那么我们会考虑把实验策略推全到全部用户上。
相关阅读:
Linux常用命令(5)--SSH访问远程服务器、SCP服务器间文件拷贝
 【转载】善用工具(1)--Mac版UltraEdit编辑器破解方法
 Linux常用命令(4)--善用"help"、"man在线帮助文档"，轻松搞定系统命令
 Linux常用命令(3)--文件管理（查看文件大小权限信息、修改文件所属用户和操作权限、压缩解压文件）
Linux常用命令(2)--vi (vim)文本编辑工具
 Linux常用命令(1)--用户管理（添加用户、修改密码、授予root权限）
30分钟掌握ES6/ES2015核心内容（下）
30分钟掌握ES6/ES2015核心内容（上）
99%的人都理解错了HTTP中GET与POST的区别
 js中const,var,let区别
原文地址：https://www.cnblogs.com/eilearn/p/14555688.html