一、视频推荐系统特征
1、物品特征
当视频作为推荐系统的item,其包含的特征和商品有所不同,主要包含如下几个维度的特征:、
1.标题,标题提取关键词,得到标签
2.国别,电影的国家,地区等
3.年代
4.演员,针对电影,短视频通常不需要
5.标签,豆瓣上电影的标签,每个标签代表一个维度
6.频道,大分类和小分类
7.时长
8.内容,视频描述也可提取关键词,实体词
9.画面,文字描述版
10.up主
2、用户特征
1. 物品画像直接赋值给用户,得到用户画像:标签。
2.播放时长
3.用户聚类特征:
1、基于TF-IDF,用户特征向量加权就是该组用户的特征向量。
2、基于用户协同过滤思路,构建用户和物品的行为矩阵,矩阵元素为用户对物品评分,该矩阵行向量即为用户特征向量,基于该特征向量进行用户聚类。
3、矩阵分解得到每个用户的特征向量,该组用户特征向量的均值作为用户组的特征向量。
4、词嵌入,用户操作过的物品看作一个文档集合,物品为一个单词,试用word2vec获得物品向量表示。
5、计数统计,一组用户操作过的物品计数,按计数大小降序排列,topN推荐给该组。
4、用户自身属性:性别,地区等
3、上下文特征
上下文信息(context)是描述推荐行为产生的场景的信息。
最常用的是 "时间"和 “地点”。包含但不限于时间、地点、季节、月份、是否节假日、天气、空气质量、社会大事件等信息。
引入上下文信息的目的是尽可能保存推荐行为发生场景的信息。典型的例子是:视频推荐场景中,用户倾向于傍晚看轻松浪漫的电影。深夜看悬疑惊悚题材。如果不引入上下文,无法捕获这些场景相关的信息。
二、数据处理流程
1、视频信息构造物品画像存到hbase
2、用户原始日志经过处理存入hdfs,使用hive读取
3、用户日志每日定时任务计算用户画像存入hbase
三、离线推荐阶段
1、召回算法
1、根据用户日志,协同过滤
2、根据用户画像和物品画像:关键词、实体词、大分类、小分类。
3、up主召回
4、聚类推荐
2、数据存储
定时任务的推荐结果保存到hbase