• 推荐系统架构-(附ppt&代码)


    Part1.乐视网视频推荐系统 

    推荐系统:和传统的推荐系统架构无异(基础建模+规则)

    数据模块特点:用户反馈服务数据-》kv 缓存-》log存储

                             行为日志-》解析/聚合-》session log-》cf/用户模型

    系统推荐流程:

         召回:聚类算法;tensorflow(topN);分类,top个性化标签(微软lda);cf/als;人工干预

         排序:时效+相似度+gbdt/ LR

         过滤

         策略调整:分类多样性

    调优—提升较明显的组合:

        1.分类+标签倒排排序

        2.itemcf+als召回+分类多样性

        3.itemcf召回优化排序+此召回的用户反馈调权占比40%

        4.item召回打分引入曝光

    短视频冷启动:排序未点击的会马上落下

    Part2.RoadMap of YouTube isrecommendation System(Ke Wang)PPT

    Youtube推荐系统的发展历程:

        1.get tags:user共现图/pagerank思想 && 引用视频相关视频中top tags

        2.基于user兴趣推荐多级相关视频

        3.视频排序:质量,多样性,多频道源

        4.相关视频推荐优化:避免cf缺点(cf缺点:新鲜性 and 长尾)

            1)retrieval with weighted topic(短期内观看视频中大众类型标签推荐计算)

            2)防止(1),learning topic transitions

            用户行为去拟合topic的权重大小

      5.优化应用:deep learning

    召回建模中的策略

        deep learning输入embedding:历史搜索+观看+用户特征,最后输出概率;

        显性反馈没有隐含反馈重要;

        用户最近100条兴趣 better than  最近100天用户的兴趣;

        feed流中:放弃序列输入 防止过拟合用户模块

        新用户的兴趣挖掘:时序行为挖掘 better 随机行为

    ranking 建模:(用户观看时长为指标)

        dnn架构和召回类似。

        dnn输入:视频,视频均值,用户语言,视频语言,距离上次观看时间开方,原值,平方;先前的印象原值,开方,平方;等embedding

    输出:加权lr(正样本评估加权)

    Part3 58同城智能推荐系统的演进和实践 詹坤林

    评价指标:推荐点击占比,推荐转化比,点击率,转化率,覆盖率(评价长尾)

    特点:用户标签和帖子标签很完善

    用户标签挖掘:

         标签会有分类:购房偏好,租房偏好,购车偏好,通用属性(时间,质量分,关键词,图片),动态属性(pv、uv、阅读时长)等

    召回:

         兴趣召回(基于兴趣标签检索),热门召回(统计ctr,平滑处理),地域召回,关联规则,协同过滤(实时itemCF),SVD(效果一般),DNN

    召回融合:

        1)分级先后顺序融合

        2)调制融合(比例融合)

    排序模型:

        单一模型LR/XGBoost/FM

        融合模型:XGBoost+LR/FM

        深度模型:FNN(提升2%) / Wide deep/CNN

    多目标优化(多权):

        点击率,转化率,停留时长预估(回归,分类)

    学习平台:

        深度学习在kubernets中融合tensorflow,caffe,Distribute tensor flow

        机器学习:Yarn融合MLib,DMc

        深度学习和机器学习平台通过hdfs打通

    规则迭代(AB test):

        去重策略/打散列表/产品逻辑/页面展示迭代

        A/Btest(有web操作页面,可供全公司配置实验)

    请求分流/数据监控

    A/B多层实验架构

    系统优点:

         耦合性低,扩展性佳;协同开发,快速迭代;

    关键技术

        58自研RPC框架SCF

    系统立体监控:

        业务总体监控/关键模块监控(请求量,失败量,平均延时,最大值,最小值)+告警阈值

    数据监控:

        推荐埋点设计:每一次曝光seqNo,进入点击click标志链式关联;沟通时长决定是否打上埋点commucate

    埋点开发测试流程:

        埋点文档沉淀+EtL抽取文档

    效果数据统计:

         hive上用Kylin(多维数据)做可视化,邮件报警和监控

    推荐效果:

        推荐占比20%~30%,流量2亿,响应30ms

    Part4 58个性化推荐push系统 

    推送的作用:

        服务用户,提高日活和留存,活动运营和推广

    推送点击率预估&效果数据监控

    原策略bug:条数限制,先来先推,精准度差,干扰性大

    推送控制系统:

         机制化推送+运营推送—》通用推送平台—〉消息总线—》推送平台

    推送点击率预估:样本(推送点击1;推送未点击0);特征工程(用户行为特征,推送上下文环境特征:周几,推送信息特征:软文);模型算法:xgboost(分布式版)

    模型离线评价:批次召回率 整体召回率

  • 相关阅读:
    java之类的封装
    java飞机大战之子弹的自动生成
    java之线程飞机大战制作
    java线程游戏之背景图片的移动
    mysql的安装以及简单的命令符
    java之控制多幅图片
    java之线程
    JAVA之数组队列
    java之链表
    python之数据库的操作(课前准备)
  • 原文地址:https://www.cnblogs.com/AngelaSunny/p/7717846.html
Copyright © 2020-2023  润新知