欢迎访问网易云社区,了解更多网易技术产品运营经验。
这里提供一个关于如何管理论坛广告贴的深度视角。
一般的论坛在发展初期,用户自发产生的内容不多,每一条数据都弥足珍贵,因此几乎不会考虑到反垃圾需求。随着产品规模的扩大,吸引了灰黑产的注意,伴随着各类垃圾广告信息随之而来。第一类风险主要来自于监管部门,主包括涉政、涉黄、涉暴的违法信息,近几年国家监管部门对网络信息的监控达到空前的高度,每年面临关停、整顿等处罚的企业数量一路攀升。与此同时,各行业面临的另一个挑战是广告牛皮癣问题。从某种意义上,一个产品的流量越高,越是灰黑产眼中的香饽饽。
当遇到垃圾信息困扰时,常规采用的方法是文本添加关键词,进而人工审核,对于图像的检测基本就是纯人工了。以关键词为例,通常会遇到两难的选择:一、设置致命词(命中就删除)简单粗暴,背后牺牲的是用户体验。二、设置嫌疑词(命中后人工审核),将会带来风险与成本。人工审核时效性上不如机器,同时随着内容体量的增加,审核人力将持续投入。举个简单的例子,“口交”是出现在淫秽刊物中的常用词,常规的做法是把该词自动屏蔽或进入待审,但对于机器检测会存在“断章取义”的情况,导致当这类词汇出现在正常语境时就会产生匹配错误,例如“接口交接”、“24口交换机”。
有问题,自然就有解决方案,这是反垃圾运营必须掌握的技能。而风险和成本是运营的工作核心。应对风险方面,在于对风险的深刻剖析与理解,做到举一反三,事先布控。例如,对于违法信息,运营需要有超高的敏锐度与尺度的把握。需要对法律法规有基本的了解,能将法律法规细化到可执行的客观标准。什么能发,什么不能发,能发到什么程度心中要有一杆尺。这里面度的把握关乎着风险与产品流量的平衡,这里就不再一一展开。同样,在广告问题上,运营遇到的挑战是样本的变种,以下截取冰山一角:
· 同音词:即相同拼音的不同汉字。最典型的例子就是兼职与蒹职。
· 象形词:字型相象的汉字组成。例如:兼(jian)职与慊(qian)职,字型相像,读音不同,同音词的解决方案也无法适用。
· 拆字:利用汉字偏旁与部首的关系,拆开绕过。例如:兼耳只
· 干扰词:绕过一般的模糊匹配,在关键词中间添加干扰字符。例如:兼*——职
反垃圾做的好与坏就在于做的有多深有多广。最直接的体现就是变种样本需要尝试多少次才能绕过,而背后支撑的是对新型样本的最大化防控。
面对这种广告,网易云安全(易盾)基于网易20年技术积累及安全大数据、提供文本检测、图片检测等多项内容安全云服务。
相关文章:
【推荐】 Android中Textview显示Html,图文混排,支持图片点击放大
【推荐】 制作Docker镜像的两种方式