• 机器学习在电商领域三大应用,推荐,搜索,广告中商品排序


    1、业务角度
    一般是在一个召回的商品集合里,通过对商品排序,
    追求GMV或者点击量最大化。
    基于一个目标,如何让流量的利用效率最高。
    很自然的,如果我们可以准确预估每个商品的GMV转化率或者
    点击率,就可以最大化利用流量,从而收益最大。
    2、技术服务于业务,模型本身的迭代需要配合业务目标才能发挥出
    最大的价值,因此选择模型迭代的路线,必须全盘考虑业务。
    3、在点击率预估领域,常用的是有监督的模型,其中样本,特征,模型
    是绕不开的问题。
    4、首先,如何构建样本,设计模型的目标函数是什么,即要优化什么。
    原则上,我们希望样本构建越接近真实场景越好。比如点击率模型
    常用用户行为日志作为样本,曝光过没有点击的日志是负样本,
    有点击的是正样本,去构建样本集,变成一个二分类。
    在另一个相似的领域-----learning to rank,样本构建方法分为3类:
    pointwise,pairwise,listwise.
    5、pointwise范畴,即每一条样本构建时不考虑与其他样本直接的关系。
    真实的场景中,往往需要考虑其他样本的影响,比如去百度搜一个关键字,
    会出来一系列的结果,用户的决策会受整个排序结果影响。
    6、pairwise做了一点改进,它的样本都是pair对组成,比如电商搜索下,
    商品a和商品b可以构建一个样本,如果a 比 b好,
    样本pair{a,b}是正样本,否则是负样本。
    当然,这会带来新问题,比如a>b,b>c,c>a这个时候怎么办?
    7、而listwise就更接近真实,但复杂性也随之增加,工业界用的比较少
    这里不做过多描述,理论上,样本构建方式listwise>pairwise>pointwise
    但实际应用中,不一定是这个顺序。
    如,你在pointwise的样本集下,模型的fit情况不是很好,比如auc不高,
    这个时候上pairwise,意义不大,更应该从特征和模型入手,
    一开始就选择pairwise或者Listwise,并不是一种好的实践方式
    8、其次是模型和特征,不同模型对应不同的特征构建方式,比如广告
    的点击率预估模型,通常就有两种组合方式,采用大规模离散特征+logistic
    regression模型或种小规模特征+复杂模型。

  • 相关阅读:
    查看mysql数据库容量大小
    通过shell监控网页是否正常,然后促发邮件告警
    Linux shell标准输入,标准输出,错误输出
    linux资源管理命令之-----vmstat
    linux基础命令--lsof
    squid之------ACL控制
    JDK的二进制安装
    重置grafana密码
    CentOS 7添加开机启动服务脚本
    LVM逻辑卷理论及配置
  • 原文地址:https://www.cnblogs.com/guoyinglichong/p/7473389.html
Copyright © 2020-2023  润新知