• 【论文阅读】TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes


    TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

    ECCV2018

    北京大学、face++

    思路:

    预测文本区域与连接方向,串起来

     

    Pipeline

     

    1. 通过FCN+FPN网络
    2. 预测TR(文本域)、TCL(文本中心线)、角度、半径
    3. 过滤文本线,后处理

     

    网络细节:

    1.基础网络采用VGG16

    2.输出大小和原图一样(耗内存,慢,但是和小栋工作类似)

     

    输出细节:

    1.过滤文本中心线(相交)

     

    2.文本线生成(过滤后还是一整块状态)

    (1) 取一点,作垂线定位中心

    (2) 沿着预测的角度滑动一定距离(有给计算法则)

    (3) 在新的点重复2步骤直到端点

     

    滑动位置计算:

     

    如果点不在区域内,就逐渐减小步长知道在里面或者该点当作端点(没具体解释,差不多了)

    Label生成

    1. 文本线:

    (1) 找出头尾(两条边:前后两条相邻边cos最小)

    (2) 画出中心线上的点(在对应的边上打格子,取中点连起来)

    (3) 缩短中心线(类似EAST),扩大中心线区域(缩短0.5r,扩大0.2r

     

    1. 半径:到边的距离
    2. 角度:

     

    损失函数:

    1. 系数均为1
    2. TR分类用的是OHEMTCL损失只考虑TR区域内的

     

     

    实验数据集:

    1. TotalText(弯曲)
    2. CTW1500(弯曲)
    3. ICDAR2015(多方向)
    4. MSRA-TD500(水平)

    实验细节:

    1. 数据增强,缩放比0.24-1.69,随机旋转,还有颜色模糊高斯噪声等增强
    2. Tensorflow1.3
    3. GPU Titan X*2
    4. 学习率0.00015000次衰减0.8
    5. Batch size 32

    实验结果:

    0.SynthText预训练

    1.Total-Text输入大小512*512,阈值(0.40.6),5k次训练

     

    2.CTW1500输入大小512*512,阈值(0.40.5),5k次训练

     

     3.ICDAR201530K次,(0.40.9),输入大小1280 × 768

     

    4.30K次,(0.40.9),输入大小1280 × 768

     

    4.迁移

     

    总结:

    1. 学习任务拟人化
    2. 角度的预测有cossin
    3. 放大的map

     

    思考:

    1. 增加标注信息,精确到字符
    2. 角度上更拟人一点,从左往右从上到下

     

  • 相关阅读:
    __dopostback的用法
    Asp.net MVC中防止HttpPost重复提交
    分享SQL2005 查询表结构的SQL语句
    SQL Server char nchar varchar nvarchar的区别
    SQL2005中的XXproperty() 函数归纳
    QQ登录端口研究
    关于SQLSERVER的全文目录跟全文索引的区别
    版本管理软件VisualSVN、TortoiseSvn、AnkhSvn 后记
    SCREEN2EXE视频录像软件 提供技术支持的好帮手
    介绍一款替代SSMS的sqlserver管理工具 toad for sqlserver5.7
  • 原文地址:https://www.cnblogs.com/SuperLab/p/9802470.html
Copyright © 2020-2023  润新知