• 【华为云技术分享】文字识别服务(OCR)基于对抗样本的模型可信安全威胁分析初析


    【摘要】 文字识别作为计算机视觉的重要分支之一,面临着视觉方向同样的安全威胁分析。随着人工智能的普及和文字识别服务大规模的商业落地,解决好相关的模型安全威胁问题已经刻不容缓。

    image.png

    OCR处理流程融合了多种图像处理技术。主要是包括图像预处理表格提取有没有表格进一步处理文字定位其中可能会有文字矫正文字识别文字后处理等最后返回给客户的是结构化的json数据。所有涉及模型的模块均可能遭遇模型可信威胁,比如表格提取模块、文字定位模块、文字识别模块等。

    image.png

    威胁模型可以分为两个方面,对抗目的和对抗知识。对抗目的包含在数据集中加入或修改成虚假样本的Poisoning Attack,模型已经固定,直接生成分类器会识别错误的对抗样本的Evasion Attack。对抗知识包含假设目标模型的所有信息都是已知的白盒,以及只知道输入输出的黑盒。

    image.png

    安全评估可以从鲁棒性,以及对抗风险等方面考虑。

    image.png

    对抗攻击的应对方法可以从以下几个方面考虑。(1)模型导数模糊策略:将模型的导数信息模糊化处理让攻击者无法得到正确的模型导数信息主要应对白盒攻击及灰盒攻击。例如模型蒸馏方法用多个模型来混淆攻击者使其无法得到模型准确的导数信息。该策略安全指数较低只能在一定程度上对抗攻击者。(2)鲁棒优化策略:通过改变模型的学习方法来提升模型的鲁棒性。主要方法包括增加正则化限制对抗式训练。(3)攻击样本检测:在实际使用中预先判断输入样本是否为攻击样本。

    image.png

    在“Fooling OCR Systems with Adversarial Text Images”论文中,将安全对抗等级分成四个等级。等级一:误导OCR系统随机误识别一些字符造成单词识别错误识别的单词可能不存在。等级二:误导OCR系统将某些单词识别成指定的反义词。等级三:在等级二的情况下句子依旧保证流畅。等级四:在等级二的情况下段落文本依旧保证流畅。

    image.png

    论文中的对抗流程主要分为三个阶段。第一阶段是确定需要攻击的图片根据其文本通过文本生成对抗模型得到对应的攻击文本确保攻击之后语义流畅。第二阶段是根据攻击文本确定需要修改的单词。第三阶段是使用文本图片生成对抗模型生成攻击图片。

    image.png

    攻击难点主要包含两方面,(1)要求可以获得整个OCR模型参数预处理、后处理等过程。(2)OCR任务相对于图片分类任务来说由于存在RNN网络存在上下文语义的纠正能力因此更难直接影响识别。

    image.png

    攻击结果也可以从字段效果和整文效果来看。

    作者:blackmoon

  • 相关阅读:
    Spring Web Flow 简介
    LeetCode:按序打印【1114】
    Java基础教程:多线程基础(5)——倒计时器(CountDownLatch)
    React:快速上手(8)——前后端分离的跨域访问与会话保持
    SpringBoot学习笔记:自定义拦截器
    Java进阶教程:垃圾回收
    SpringMVC:学习笔记(12)——ThreadLocal实现会话共享
    Node.js学习笔记(4):Yarn简明教程
    Docker:学习笔记(1)——核心概念及Ubuntu安装
    Java基础教程:内部类
  • 原文地址:https://www.cnblogs.com/2020-zhy-jzoj/p/13164840.html
Copyright © 2020-2023  润新知