• 【paper】KDD15


    Interpreting Advertiser Intent in Sponsored Search
     
    主要内容是搜索广告的相关性预估模型,使用learning to rank的方法。亮点在于使用了用户query和广告关键词的自然搜索结果特征来训练相关性
    预估模型。
     
    背景
    相关性预估 -> 用户体验 + 收入,好的相关性有助于搜索引擎好的用户体验和长期持续的收入。
    传统做法: 特征来源主要来自 query + 搜索广告,通过理解用户query和广告,来判断相关性。
    本文研究表明挖掘客户意图可以显著提升相关性
    利用客户购买词的搜索结果,特征来源扩展为:query + 搜索广告 + 客户购买词 + 购买词搜索结果
    线下 auc+43.2%  线上2.7%
     
    搜索广告背景:
     
    搜索引擎背景:
    精准匹配 + 模糊匹配(同义词,扩展词,rewrite)
    点击计费cpc
    不相关广告,伤害用户体验:
        用户搜索 天气, 出广告“羽绒服“ ,用户意图为天气查询
        用户搜索京东,出苏宁广告
     
    量化用户相关性可以从以下几方面着手:
    • 用户搜索query,用户意图,短文本,意图难以准确识别(辅助信息:session,点击信息,query校正等)
    • 广告创意 , 信息较准确反映客户意图,广告title信息也不足,落地页质量较差
    • 落地页
    • 广告关键词
    四要素
     
    本文致力理解广告关键词
     
    基本假设
    1, 客户购买词反映客户的基本意图和流量需求
    2,搜索引擎query理解能力较强
     
    用户相关 : 用户query + 用户query自然结果
    广告相关 : 广告关键词 + 广告关键词自然结果 + 广告创意 + 广告落地页
     
    双刃剑:
    ?? 客户的购买词真是表达了客户想要reach的用户以及想要获得的那部分流量,创意和url相对固定
    带来的问题是:
    • 客户乱买词肯定引起相关性下降,比如,苏宁客户购买“京东关键词”
    • 客户买词会潜在提高相关性,啤酒和尿布的故事
    • 问题在于如何评价是否相关,主观因素太强!!!
     
    做法:
    1. 用户query和广告关键词取前40个自然结果
    2. 去自然结果页的title,snippet,描述,ODP分类,url
    3. 去停用词,进行porter stemmer主干提取【1】
    4. 将以上的词干连接,形成bow
    5. 使用LambdaMART进行训练【2】
    baseline 特征,共1+3*6=19个 : 
    • query长度
    • query 和 titile 的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
    • query 和 desc的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
    • query 和 url的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
        重合度计算公式:
            
    新增特征,共6*9=54个:
    • 创意标题与广告kwd搜索结果title,创意描述与广告kwd搜索结果描述,创意描述与广告kwd搜索结果snipet
    • Landing Page title与广告kwd搜索结果title,Landing Page正文与广告kwd搜索结果描述,Landing Page正文与广告kwd搜索结果snipet
    • Query与广告kwd搜索结果title,Query与广告kwd搜索结果描述,Query与广告kwd搜索结果snipet
     
     
    使用query的自然结果辅助理解用户意图,query自然结果与广告关键词的重合特征
    自然结果会返回网页分类,因此query的自然结果和广告kwd的自然结果会返回两个分类列表,可以计算分类相关性:
     
    这样可以捕捉语义升相关性,比如 鞋子和靴子,按照这种分类相关性,可以得到较好的结果
    广告的domain在用户query的自然结果中出现,表明结果较相关
    广告的domian在广告关键词的自然结果中出现,表明广告主意图与客户购买词较相关
     
    新增特征2,18 + 1 + 2= 21:
    • query自然结果title和kwd自然结果title,query自然结果desc和kwd自然结果desc,query自然结果snip和kwd自然结果snip
    • 自然结果类别相关性
    • domain 重合个数
     
     
     
    训练集:
    128万人工标注(query, ad) pairs,打分1-5,5表示最相关,32万hold-out
     
    实验结果:
        模糊匹配下准确率提升比精准匹配大,因为模糊匹配下,使用更多的信息,有助于提升相关性判断信息
        增加query search特征,效果好很多,说明query seach特征作为连接信息,更多的连接了广告和query的信息
        对于本来就高相关性的广告,预估效果更好,原因是高相关性的广告的自然结果交叉特征中存在更多的重合项
     
     
    线上真实结果:
        精准匹配下基本上无效果,说明精准匹配下,工业产品已经处理很好了
        模糊匹配下QS提升明显
        
     
    LambdaMART可以看出各个特征的重要性,最重要的三个特征,都是QS特征:
        i) ad domain count in query organic results, 广告域名在query自然结果出现次数
        ii) ordered bigram overlap between snippets of organic results for
    query and ad keyword , snippet重合度
       iii) ad domain count in ad keyword organic results. 广告域名与广告关键词搜索结果匹配度
    query特征中最重要的是:
        i) word unigram overlap between query and snippets in organic results for ad keyword 
       ii) order word bigrams between query and titles of the organic results for ad keyword.
     
    【1】 http://qinxuye.me/article/porter-stemmer/
    【2】http://blog.csdn.net/huagong_adu/article/details/40710305
     
     
     
     
     
     
     
     
     
     
  • 相关阅读:
    POJ 1321:棋盘问题
    POJ 2251:Dungeon Master
    POJ 3438:Look and Say
    POJ 1094:Sorting It All Out拓扑排序之我在这里挖了一个大大的坑
    杭电1285--确定比赛名次(拓扑排序)
    南阳67--三角形面积
    南阳38--布线问题
    杭电1050--Moving Tables(区间覆盖)
    杭电1217--Arbitrage(Spfa)
    杭电1719--Friend(找规律)
  • 原文地址:https://www.cnblogs.com/djwang/p/4942282.html
Copyright © 2020-2023  润新知