• 机器学习笔记(photo OCR)


    photo OCR应用

    1.介绍:光学字符识别, 图片文字转为可编辑的文字。

    2.步骤:(使用管道pipeline )

    • 识别出文本区域
    • 字符分割
    • 单个字符识别

    3.识别出文本区域

    • 收集长方形的图形作为训练集,表示是否是文字区域,训练算法。
    • 在图片中使用长方形(不同大小的)滑动窗口进行扫描,对每个长方形使用训练的算法判读是否有文字,有的话则标记这个区域。
    • 扩展文字区域,如果这个像素有文字,则周围10个像素都标记为有文字,方便后面处理。
    • 根据实际情况选出复合要去的文字区域

    4.字符分割

    • 收集长方形的图形作为训练集,表示是否是字符的分割(中间可以画一条线),训练算法。
    • 在文本区域图片中使用滑动窗口扫描,对每个长方形使用训练的算法判读是字符的分割,是的话则标记这个区域。
    • 划分区域

    5.单个字符识别

    这个同样使用训练集进行处理。

    6.人工合成数据

    • 数据曲解
    • 添加噪音

     注意区别太小的改变不会产生作用,尽量使用区别大的。

     7.上限分析Ceiling Analysis

    应用在管道pipeline中:

    • 确定当前系统的预测准确率。
    • 从头开始,对每一步达到100%的准确率(可以使用人工),记录每步修改后,整个系统的准确率(就是确定,如果在这步中花费时间,是否会有不错的改进)。
    • 从前面的记录中确定要对哪些步骤花费时间是值得的。

    作用:当一个系统的准确路不满足要求时,确定哪一步的缺陷比较大,值的花费时间,改进后效果明显。

  • 相关阅读:
    SVN访问配置及常用操作
    SVN配置
    在Eclipse中创建maven项目
    Maven的基础之环境配置
    线程池理解
    JVM之类的生命周期
    JAVA代码编程规范
    Jquery实现div局部页面刷新中js渲染失效问题解决
    觅踪17
    第十四周进度
  • 原文地址:https://www.cnblogs.com/sbaof/p/4145332.html
Copyright © 2020-2023  润新知