• 计算广告


    第1章 在线广告综述

    1.1 广告的定义与目的

    广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动
    广告的根本目的,是广告主通过媒体达到低成本的用户接触。
    要确定是否真的成本较低,需要用到一个“投入产出比(Return over Investment, ROI)”的评价指标,即某次广告活动的总产出与总投入的比例。

    1.2 在线广告类型

    条幅广告(Banner Ad)
    文字链广告(Textual Ad)
    富媒体广告(Rich Media Ad) 常见的形式有弹窗、对联、全屏等。
    视频广告(Video Ad):
    社交广告(Social Ad):
    移动设备广告(Mobile Ad):
    邮件营销广告(Email Direct Marketing, EDM)

    1.3 在线广告简史

    在互联网上展示条幅(banner)广告创意的产品形式,我们称为显示广告(Display Advertising)。这一阶段显示广告的售卖模式,我们称为合约式广告:采用合同约定的方式确定某一广告位在某一时间段为某特定广告主所独占
    在线广告不同于传统媒体广告的本质特点是可以对不同的受众呈现不同的广告创意。定向广告(Targeted Advertising)。仍然以
    合约的方式进行:媒体向广告主保证某个投放量,并在此基础上确定合同的总金额以及量未完成情况下的赔偿方案。按照按千次
    展示付费(Cost Per Mille, CPM)的计费方式。
    竞价广告(Auction-based Advertising)。在这种模式下,供给方只向广告主保证质即单位流量的成本,但不再以合约的方式给出量的保证,换言之,对每一次展示,都基本按照收益最高的原则来决策
    上下文广告(Contextual Advertising)。
    关于定价机制的深入研究,产生了广义第二高价(Generalized Second Pricing)这一竞价重要的理论
    实时竞价(Real Time Bidding)技术。就是把拍卖的过程由广告主预先出价,变成每次展示时实时出价。只要把广告展示的上下文页面url,以及访客的cookie等信息传给需求方,它就有充分的信息来完成定制化的人群选择和出价。

    1.4 广告有效性原理

    一、曝光(Exposure)阶段:这一阶段指的是广告物理上展现出来的过程,此阶段的有效性往往与广告位的物理属性有关,并没有太多可以通过技术优化的空间。在互联网广告中,位置的影响有时会更加显著,因此如何从算法上消除由于由此带来的点击率预估偏差,是一个非常重要的实际问题。
    二、关注(Attention)阶段:这一阶段指的是受众从物理上接触到广告到意识上注意到它的过程。
    三、理解(Comprehension)阶段:受众意识到了广告的存在,并不意味着他一定能够理解广告传达的信息。
    四、接受(Acceptance)阶段:受众理解了广告传达的信息,并不一定表示他认可这些信息。广告的上下文环境对于广告的接受程度也有着很大的影响,同一个品牌广告出现在某游戏社区上和门户网站首页上,用户会倾向于认为后者更具说服力,这也就是优质媒体的品牌价值。
    五、保持(Retention)阶段:对于不仅仅追求短期转化的广告商,当然希望广告传达的信息给用户留下长久的记忆,以影响他长时间的选择。
    六、决策(Decision)阶段:成功广告的最终作用是带来用户的转化行为,虽然这一阶段已经离开了广告的业务范围,但好的广告还是能够为转化率的提高做好铺垫。
    定性地说,越靠前的阶段,其效果的改善对点击率的贡献越大;而越靠后的阶段,其效果的改善对转化率的贡献越大。

    1.5 在线广告相关行业协会

    一、交互广告局(Interactive Advertising Bureau, IAB):IAB主要关注的是在线广告供给方的利益。
    二、美国广告代理协会(American Association of Advertising Agencies, 4A)

    第2章 计算广告基础

    ROI优化问题的概念性框架表达。

    2.1 在线广告的技术特点

    一、技术和计算导向。数字媒体的特点使在线广告可以进行精细的受众定向,技术又使得广
    告决策和交易朝着计算驱动的方向发展。
    二、效果的可衡量性。在线广告刚刚产生的时候,大家对这种广告最多的称道之处,是它可
    以以展示和点击日志的形式直接记录广告效果。
    三、创意和投放方式的标准化。标准化的驱动力来自于受众定向与程序购买。
    四、媒体概念的多样化。
    五、数据驱动的投放决策。

    2.2 计算广告核心问题

    计算广告的核心问题,是为一系列用户与环境的组合,找到最合适的广告投放策略以优化整体的投入产出比(ROI)。
    按照点击和转化两个阶段对回报r进行分解用µ表示点击率(Click through Rate, CTR),用ν表示点击价值(Click Value),而这两部分的乘积,即定量地表示了某次或若干次展示的期望CPM值,我们称之为expected CPM(eCPM)2

    2.2.1 在线广告技术课题

    2.2.2 在线广告计费模式

    一、 CPM(Cost per Mille)计费,即按照千次展示计费对于品牌广告,由于目标是较长时期内的利益,很
    难通过对短期数据进行分析的方式直接计算点击价值,而点击率也因为对于用户接触的核心要求变得不是唯一重要的因素。
    二、 CPC(Cost per Click)计费,即按点击计费。这种方式最早产生于搜索广告,并很多为大多数效果广告网络所普遍采用。这种方式是把点击率的估计交给供给方(或者中间市场),而把点击价值的估计交给需求方
    三、 CPS(Cost per Sale)/CPA(Cost per Action)/ROI计费,即按照销售订单数、转化行为数或投入产出比来计费,而这些都是按照转化付费的一些变种。这是一种极端的情况,即需求方只按照最后的转化收益来结算,从而极大程度上规避了风险。这种方式只适合于一些垂直广告网络(Vertical Network)。
    四、 CPT(Cost per Time)计费,这是针对大品牌广告主特定的广告活动,将某个广告位以独占式方式交给某广告主,并按独占的时间段收取费用的方式。
    综合起来看,可以认为对于效果广告, CPC计费方式最有利于发挥供给方和需求方的长处,因而在市场上被广泛接受。而对于品牌广告,由于效果和目的有时不便于直接衡量,可以考虑按照CPM的方式计费。而CPS的计费方式,只在一些特定的环境下才比较合理

    2.3 计算广告系统架构

    广告系统由三个主体部分构成:一个是在线的高并发投放引擎(Adserver),一个是离线的分布式数据处理平台(Grid),另一个是用于在线实时反馈的流式处理平台(Stream computing)。
    一、广告投放机
    这是接受广告前端Web server发来的请求,完成广告投放决策并返回最后页面片段的主逻辑。
    一般来说,为了扩展性的考虑,我们都采用类搜索的投放机架构,即先通过倒排索引从大量的广告候选中等到少量符合条件的或相关的候选,再在这个小的候选集上应用复杂而精确的排序方法找到综合收益最高的若干个广告。
    二、广告检索。它主要的功能,是实时接受广告投放信息,建立倒排索引,以及在线时根据用户与上下文标签从索引中查找广告候选。
    三、广告排序,它是广告效果优化的关键。其关键技术,在于离线分布式计算平台上的海量数据支持的点击率预测模型的训练。
    四、数据高速公路,是将在线投放的数据准实时传输到离线分布式计算平台与流式计算平台上,供后续处理和建模使用
    五、用户日志生成,从各个渠道收集来日志,需要先整理成以用户ID为key的统一存储格式,我们把这样的日志称为用户日志(Session log)。这样整理的目的。是为了让后续的受众定向过与程更加简单高效4。
    六、商业智能(Business Intelligence, BI)系统,包括ETL(Extract-Transform-Load)过程, Dashboard和Cube。这些是所有以人为最终接口的数据处理和分析流程的总括。
    七 、行为定向 ,包括结构化标签库(Structural label base), Audience targeting, 以及User attributes的cache:这部分完成的是挖掘用户日志,根据日志中的行为给用户打上结构化标签库中某些标签的过程。
    八、上下文定向,包括半在线页面抓取(Near-line page fetcher)和Page attributes的cache:这部分与行为定向互相配合,负责给上下文页面打上标签,用于在线的广告投放中。
    九、定制化用户划分,即Customized audience segmentation:由于广告是媒体替广告主完成用户接触,那么有时需要根据广告主的逻辑来划分用户群,这部分也是具有鲜明广告特色的模块。这个部分指的是从广告主处收集用户信息的产品接口,而收集到的数据如果需要较复杂的加工,也将经过数据高速公路导入受众定向模块来完成。
    十、在线行为反馈:这部分指的是一些需要准实时完成的一些任务,包括短时的用户行为标签和短时用户点击反馈等。当然,在利用日志完成这些逻辑之前,必须要进行的步骤是反作弊(Anti-spam)与计价(Billing)。
    十一、广告管理系统:这部分是广告操作者,即客户执行(Account execute, AE)与广告系统的接口, AE通过广告管理系统定制和调整广告投放,并且与数据仓库交互,获得投放统计数据以支持决策。
    十二、实时竞价接口:这是广告交易市场实时向DSP发起广告询价请求,并根据竞价结果胜出DSP的程序交易接口。

    2.4 基础知识准备

    2.4.1 信息检索

    倒排索引
    其核心目的,是将大量文档中查找某些词的文档集合这一任务,用O(1)的时间复杂度完成。也就是说其实现与文档集大小无关的检索复杂度。使用hashmap,key为关键词即term,value是倒排链。
    向量空间模型
    向量空间模型(Vector Space Model,VSM),其核心有两点,文档的表示方法和相似度计算方法。
    对每个文档使用词袋模型,每个词的强度定义为TFIDF值。采用余弦距离作为文档的相似度。
    对海量文档进行检索的基线方案:在检索引阶段,需要对文档集合分词,并按照bag of words表示得到每个文档的TDIDF矢量,对分词后的文档集合建立倒排索引。当在线的查询到来时,也进行分词,并从倒排索引中查出所有符合要求的文档候选,并对其中的每个候选评价其与查询的余弦距离,按距离由小到大进行排序。

    2.4.2 最优化方法

    下降单纯型法( 阿米巴(Ameoba)变形虫法)
    有些问题中, f不可导或者工程上求导代价极大5。这种情形下,假设函数值是连续的,我们有一种自然的思路,那就是采用不断试探的方法:在自变量为一维的情况下,给定一个初始区间,假设区间内有唯一的最小值,可以按照黄金分割的方法不断缩小区间以得到最小值。简单地讲,将一维空间上用两个点限制的区间不断变形的思路加以推广,在N维空间中,我们也可以选择一个N + 1 个点张成的超多面体,或称为单纯型(Simplex),然后对这一单纯型不断变形以收敛到函数值的最小点。
    梯度方法
    当f可以比较容易地求导时,基于梯度的方法是首要选择。 梯度的几何意义,是f在x点函数值下降最快的方向,利用梯度的优化方法,概念上就是每次都沿着梯度方向按某步长前进一小步,这样的方法称为梯度下降法(Gradient Descent)。
    拟牛顿方法
    当函数值对各个自变量归一化不够好时,优化过程会陷入Zig-Zag折线更新的困境,可以同时利用梯度和二阶导数做优化,相当于在当前点处进行二阶的泰勒展开,并找到此二次曲面的极小值点。当ε = 1时,牛顿法的每一步,都是在求一个二次曲面的极小值。我们可以构造一个不太精确,但是可以保证正定的伪Hession矩阵,用它来代替实际的Hession阵更新参数,这样的方法,就是工程上真正实用的拟牛顿(Quasi-Newton)法。直观上来看,利用前面几次迭代的函数值和梯度,可以近似地拟合出Hession阵,而随着拟合公式的不同,也就产生了不同的拟牛顿方法。拟牛顿的一种常见方法,是由Broyden, Fletcher, Goldfarb, Shanno四位学者创造的方法,称为BFGS方法。在BFGS方法中, Hession 矩阵的逆是迭代更新的。
    Trust-Region方法
    一种对自变量加一个超球约束,但不对函数曲面做正定化近似的优化方法。通过引入约束,我们可以避免Hession不正定是优化过程的不可控。
    带约束优化和拉格朗日法
    引入一个拉格朗日对偶函数(Lagrange Dual Function)

    2.4.3 统计机器学习

    最大熵原理
    指数族分布
    混合模型和EM算法
    贝叶斯学习
    共轭先验
    经验贝叶斯
    变分法

    第3章 合约广告

    面向合约式CPM广告的投放系统,需要解决受众定向、流量预测、点击率预测这三个基本问题,并采用在线分配的方式完成实时决策。在线分配问题,即在一组合约的量的约束条件下,对每个在线到达的展示做投放决策以优化某种目标这一问题。

    3.1 广告位售卖和排期系统

    3.2 担保式投送除了将广告位以独占的CPT方式售卖意外, 担保式投送(guaranteed delivery, GD)是另一种常见的

    合约广告形式。一般来说, GD采用的是CPM结算方式,在合约中明确保证分配给广告主的流量下限。

    3.3 在线分配问题

    3.3.1 在线分配问题表达

    在线分配问题有两个主要的挑战:一是要在量的约束下优化质;二是要实时对每一次展示作出决策。

  • 相关阅读:
    洛谷-P1496 火烧赤壁
    洛谷-P5638 【CSGRound2】光骓者的荣耀
    Java多线程实现
    linux安装mysql 8的完整过程
    tomcat安装
    C#之Null
    JToken
    初识算法之线性表---双向列表
    初识算法之线性表---链表定义/结构(2)
    初识算法之线性表---链表定义/结构(1)
  • 原文地址:https://www.cnblogs.com/hellojamest/p/11285980.html
Copyright © 2020-2023  润新知