• 计算广告算法到底要做什么?


    原文链接:https://zhuanlan.zhihu.com/p/59418692

    这个话题在这个专栏开篇就该去讲。恰逢今天公司业务和财务培训(20190216)之后,也有一些思索,索性就都汇总写下来。本文杂述,不尽完备,但是值得不断完善。

    我喜欢一句话“革命不是请客吃饭,不是做文章,不是绘画绣花,不能那样雅致,不能那样从容不迫,文质彬彬,那样温良恭俭让。”。对于一个公司来说,不得不承认,也应该是如此!必须要有贡献,要有对应的产出!这样就自然的提出了一系列问题,要有怎样的产出,要做些什么样的事情,要达到什么样的目标,要去往哪里?我想,作为一名广告算法工程师,不管是怎么入行的,那么现在在这个行当去做,也就该时刻的去问这些问题。记得《乔布斯传》里边儿有写到,乔布斯随时都会问员工几个问题,你在公司负责什么?你今天最重要的事情是什么?我想这也是一个职业人该随时问自己的问题。

    首先一点就是广告算法的核心竞争力是什么?知乎上有这个问题,总结一下大家的答案,基本上都强调了业务知识!对于业务的理解很关键,但只单纯的理解业务也不能形成一个算法工程师的核心竞争力!毕竟广告算法工程师还是要从算法工程出发,所以不断的去打磨我们自己的算法和工程能力是一个算法工程师必不可少的功课,深刻理解业务可以说是在任何一个领域深深地耕耘下去必备的知识体系。对于算法工程师的优劣标准老大给过一个决策力是很关键的指标,具体来说就是我们需要做很多的判断,很多的抽象,以至于构建很多的模型和策略,这样怎么去构建我们的评估体系,怎么去决策就显的尤为重要!下边分列一下广告需要着重关注和解决的问题。

    第一类事情统计分析

    计算广告具有天然的大数据特性特别是涉及到变现的业务对于数据都十分敏感,不管是衡量自己的工作还是汇报工作以及分享离开数据的支撑都是空洞无物的,如何培养这样的敏感性?首先我们要对于统计分析的一些基本方法和能力有培养,另外要对于关键指标有明确的了解和意识,具体到计算广告涉及计费的有CPM、oCPM、CPC、oCPC、CPI、CPA等,涉及到效果的CTR、CVR、eCPM 、TA%、N+REACH等,另外对于一些媒体属性、行业特征等也应该有个大概的把握,对于模型的评价指标比如离线考虑AUC、F1、Accuracy、log_loss等以及A/B测试情况都需要有非常清楚的掌握。

    在对于数据分析的过程中,我们常用的一些工具需要有Hive、Mysql等这样的存储介质以及SQL或类SQL的编写能力;基于Spark、Hadoop等大数据引擎编写数据处理与分析的能力由于计算广告所涉及的数据量级都十分巨大,传统简单的分析方式可能很难奏效,无论是数据分析,还是特征抽取以及模型训练,对于大数据的处理能力都是必不可少的;灵活的python、shell等脚本语言的编写能力,有很多任务可能只是即时的分析,能快速的编写对应的脚本来处理也是很重要的,python具有很多数据分析的强大库,比如pandas、scipy、matplot等都是平时工作非常重要的工具,另外灵活的shell脚本的编写也可以快速的实现一些统计分析工作。

    第二类事情预估问题

    可以说预估问题是计算广告算法发挥作用的核心地带,尤其是点击率预估问题,基本上各大公司都有自己的预估算法体系,预估算法也从传统的经典机器学习比如逻辑回归、朴素贝叶斯、SVM等方法逐渐发展到FM、MLR、LR+GBDT、GBM等,现在很多公司也在逐渐采用一些深度学习方法,比如DNN、DEEPFM、DIN等。可以说这个方向是研究的最多的,也是成果最为丰富的。

    但是广告的投放是一个全链的商业行为,一般广告主最终考核的是ROI,因此对于转化率、客单价等的预估问题也是十分重要的,而且这类问题往往也是十分困难的。具体到转化率,可能存在数据特别稀疏,数据延迟或缺失以及反复,无经验下限等问题。因此对于这类问题的模型的研究也是算法工作的一个重点和棘手的问题。

    还有就是用户画像涉及到的诸多预估问题,其中涉及到品牌广告一般考核的一个指标TA浓度问题,用户兴趣标签涉及到的预估问题,这类问题可以采用线性模型、树形模型以及深度神经网络模型并用最后融合的方式去解决。

    第三类事情出价问题

    广告的出价问题是伴随着RTB的发展而发展的,最为著名的就是谷歌采用的广义第二高价方式,可以说对于RTB广告影响深远,不过最近有说谷歌由于各种原因可能会采用一价方式,不管怎样,广告对于出价的考虑都是一个非常重要和系统的问题。另外像百度,他们的出价也是在一个不断迭代的过程,从一价、二价、梅森拍卖、优化出价等不断的在进行迭代。值得说明的是很多出价模型非常依赖于预估的解。

    第四类事情推荐与排序问题

    对于广告所涉及的推荐和排序问题,可能不像纯粹的推荐系统那么复杂繁琐,或者说广告的推荐业务问题和纯粹的推荐是有很大的差距的,广告的推荐更多的涉及广告素材的推荐,广告的排序是需要考虑价格或者ROI因素的,也就是很多排序是基于eCPM去排序,但是广告所涉及的推荐技术也是和一般的推荐所解决和面临的问题是一样的。

    不过在广告推荐里边一般会涉及到广告的创意优选类的功能,也是要基于预估值去实现一些业务功能的。

    第五类事情防作弊问题

    对于计算广告,防止作弊是十分紧要的问题,一般的作弊处理分为在线防作弊和离线反作弊。作弊系统更为常见的是一些规则,一些具体的规则定义往往可以成为一种标准,具体可以参看一些监测公司的规则定义。当然,对于作弊数据的建模也是可以做算法去区分的。

    第六类问题流量预估、分配与评级

    对于流量的精细化管理一定是十分重要的,特别是对于联盟网络,以及pdb的多点位的问题,流量预估可以经过统计分析得到,一般的分配算法,可以利用线性方法,也可以利用非线性的优化方法,主要基于业务场景的建模。对于流量的评级,一般基于历史投放数据,和一些业务规则来进行,评级一般可以控制量的情况以及后续合作的情况,所以对于网盟类流量十分必要。

    另外还有一些涉及到具体业务的,比如PDB的退量和保量,投放速度、频次控制等算法。

    另外,说一点其他的,那就是责任心,对效果负责的责任心,如果没有责任心,我想算法人员是很难有实际的产出的。还有就是好奇心或者说想法、创新性,没有自己的思考和想法也难以成为一名合格的算法工程师。

  • 相关阅读:
    js中操作Map集合
    js中json字符串与map的相互转化
    安卓开发--个人软件开发-day05
    javabean工具类方法lombok
    hadoop的datanode没有正常启动
    安卓开发--个人软件开发-day04
    安卓开发--个人软件开发-day03
    bigData学习笔记-hadoop总结
    spring框架学习之mybatis
    安卓开发--个人软件开发-day02
  • 原文地址:https://www.cnblogs.com/shiheyuanfang/p/13744531.html
Copyright © 2020-2023  润新知