• 推荐系统


    2

    2.1简介

    协同过滤的方法可以分为两类:基于领域的方法和基于模型的方法。在基于领域的协同过滤方法中,系统中用户对物品的历史评分数据可以用来预测用户对新物品的评分。基于领域的方法包括两种著名的推荐方法:基于用户的推荐和基于物品的推荐。在基于用户的推荐系统中,如GroupLens、Bellcore video和Ringo,目标用户对某一物品的感兴趣程度是利用对该物品的已评过分、并且和目标用户有相似评分模式的其他用户来估计的。这里目标用户的近邻是指与目标用户评分模式类似的用户。基于物品的推荐系统,是根据某一用户对相似于目标物品的评分来预测该用户对目标物品的评分。
    与基于领域的推荐方法不同的是,基于模型的方法使用评分信息来学习预测模型。主要思想是使用属性构建用户和物品之间的联系,其属性代表在系统中用户和物品的潜在特征,如用户喜爱类别和物品所属的类别。具体的模型包括贝叶斯聚类,潜在语义分析,潜在迪利克雷分布,最大熵模型,SVD,SVM,玻尔兹曼机等。

    2.1.1基于领域方法的优势

    基于模型的方法在刻画用户爱好的潜在因素方面有突出优势。
    基于领域的方法的潜在优势有:

    • 简单性
    • 合理性
    • 高效性
    • 稳定性

    2.1.2目标和概要

    本章目标:首先,基于领域推荐系统的实现指南;其次,一些存在问题的具体解决办法,如数据稀疏。

    2.2问题定义和符号

    评分预测和最优N项是推荐系统中最重要的两个问题。
    当有评分信息时,评分预测可以形式化为一个回归或者分类问题,其目标是用学习函数来预测用户对于新物品(用户未评过分的物品)i的评分。
    当没有评分信息可以利用时,
    这类方法的效果可通过准确率和召回率进行评估:

    [Precision(L)=frac{1}{|mu|}sum_{uinmu}|L(u) cap T(u)|/|L(u)| ]

    [Recall(L)=frac{1}{|mu|}sum_{uinmu}|L(u) cap T(u)|/|T(u)| ]

    如果测试集是随机划分的,对每个用户u,其对应物品集合(T_u)中的一个项可以表示为(i_u)。那么评估函数L的效果可以通过平均逆命中率衡量:

    [ARHR(L)=frac{1}{|mu|}sum_{uinmu}1/{rank(i_u,L(u))} ]

    其中,(rank(i_u,L(u)))表示(i_u)在L(u)中的排名。

    2.3基于领域的推荐

    2.3.1基于用户的评分预测

    2.3.2基于用户的分类预测方法

    2.4基于领域方法的要素

    2.4.1评分标准化

    2.4.1.1均值中心化

    在基于用户的的推荐方法中,假设(r_{ui})为用户对物品i的原始评分,可以通过减去他评价的物品集T的平均评分(overline{r_u})转化为均值中心评分:

    [h(r_{ui})=r_{ui}-overline{r_{u}} ]

    用户评分预测用户评分(r_{ui}):

    [hat{r_{ui}}=overline{r_u}+frac{sum_{jin{N_u(i)}}w_{uv}(r_{vi}-overline{r_v})}{sum_{jin{N_u(i)}}|w_{uv}|} ]

    3协同过滤方法进阶

    3.1简介

    CF的主要技术包括:基于领域的方法和隐语义模。基于领域的方法重点关注物品之间的关系或者用户之间的关系。隐语义模型试图通过描述物品和用户两种实体在因子上的特征来解释评分。

    3.2预备知识

    3.2.1基准预测

    3.2.2Netflix数据

    3.2.3隐式反馈

    3.3矩阵分解模型

    3.3.1SVD模型

    每一个物品i都与一个f维向量(q_i)相关联,每一个用户都与一个f维向量(p_u)相关联,给定一个物品i,(q_i)向量的每维度值

    4基于内容的语义感知推荐系统

    4.1简介

    基于内容的推荐系统依赖物品和用户的描述内容来构建其特征表示,然后基于这些特征表示来推荐与目标用户曾明确表达过喜好的物品相类似的物品。该类推荐系统的基本过程是对目标用户属性(偏好和兴趣)与物品属性进行匹配,并返回目标用户在物品上的喜好程度。通常,物品属性使用物品的元数据(metadata)或从描述中获取特征。
    语义技术可以分为自上而下和自下而上的两类。

    • 自上而下的方法依赖于外部知识的集成来表示用户和物品特征,外部信息包括机器可读词典、分类(或IS-A层次)、叙词表或本体(有或没有价值限制和逻辑约束)。
    • 自下而上的方法主要动机是向推荐系统提供语言知识、常识知识,以及人类能够理解和推理的自然语言文档的文化背景;另一方面自下而上方法利用所谓的意义的几何隐喻来表示高维向量空间中单词之间的复杂的语法和范式关系、

    4.2基于内容的推荐系统概述

    推荐的过程有三个阶段,每一阶段都由独立的部件控制:

    • 内容分析器 对于无结构信息,需要进行预处理来抽取相关的结构化信息。内容分析器的主要功能就是将物品的内容(如文档、网页、新闻、产品描述等)表示成恰当的格式,以便于下一阶段的处理。通过特征抽取技术,可以将物品的的内容表示从原有信息空间转换到目标空间中(如将网页表示成关键词向量)。这种目标空间内的物品内容将作为信息学习器和过滤组件的输入
    • 信息学习器 这个模块收集用户的偏好数据,并试图去泛化这些数据,从而构建用户特征。泛化策略通常通过机器学习技术实现,它可以从用户过去喜欢的或不喜欢的物品中推断出一个用户的兴趣模型。
    • 过滤组件 这个模块通过匹配用户特征和待推荐的物品完成推荐。这个组件的结果是一个二元或者连续的相关性推断(使用某种相似度来计算),其中连续的情况下,能够生成一个潜在的感兴趣物品的排名清单。

    基于内容的推荐算法大多数为基于TF-IDF权重的向量空间模型。向量空间模型是一个文本文档的空间表示方法。在该模型中,每个文档被表示成一个n维向量空间中的向量,每一维对应给定文档集合词汇表中的一个词。
    形式上,每篇文档被表示成为词权重的向量,其中权重表示这篇文档和该词的关联度。D={,,...,}表示一个文档集合或语料库,T={,,...,}表示词典,即语料库中词的集合。词典T从使用自然语言处理手段对文档进行处理后得到。每篇文档表示n维向量空间中的一个向量,从而={,,...,},其中是文档中词的权重。
    在向量空间模型中需要解决的有两个问题:为单词赋予权重和度量特征向量的相似度。常用的加权模式有基于文本实验观察结果的TF-IDF(词频-逆文档频率)。

    其中,N表示语料库中文档的个数,表示含有词单词出现至少一次的文档集合的数量。

    其中,最大值是出现在文档中的所有单词的词频上计算的。
    为了使权重落在[0,1]的区间,且文档能够用等长向量表示,常利用余弦归一化方式来进行归一化。

    最终需要利用相似度度量来确定两个文档的接近程度。

  • 相关阅读:
    hadoop 2.7 添加或删除datanode节点
    hadoop HA集群的安装
    Linux-PAM认证
    [Notice]博客地址转移 vitostack.com
    WPF 自定义 MessageBox (相对完善版 v1.0.0.6)
    python2.7 倒计时
    Hadoop Streaming框架使用(二)
    Hadoop错误码速查
    Hadoop Streaming框架使用(一)
    python清空列表的方法
  • 原文地址:https://www.cnblogs.com/zhouyu0-0/p/11997316.html
Copyright © 2020-2023  润新知