机器学习笔记（photo OCR） - 润新知

机器学习笔记（photo OCR）
photo OCR应用

1.介绍：光学字符识别，图片文字转为可编辑的文字。

2.步骤：（使用管道pipeline ）
- 识别出文本区域
- 字符分割
- 单个字符识别
3.识别出文本区域
- 收集长方形的图形作为训练集，表示是否是文字区域，训练算法。
- 在图片中使用长方形（不同大小的）滑动窗口进行扫描，对每个长方形使用训练的算法判读是否有文字，有的话则标记这个区域。
- 扩展文字区域，如果这个像素有文字，则周围10个像素都标记为有文字，方便后面处理。
- 根据实际情况选出复合要去的文字区域
4.字符分割
- 收集长方形的图形作为训练集，表示是否是字符的分割（中间可以画一条线），训练算法。
- 在文本区域图片中使用滑动窗口扫描，对每个长方形使用训练的算法判读是字符的分割，是的话则标记这个区域。
- 划分区域
5.单个字符识别

这个同样使用训练集进行处理。

6.人工合成数据
- 数据曲解
- 添加噪音
注意区别太小的改变不会产生作用，尽量使用区别大的。

7.上限分析Ceiling Analysis

应用在管道pipeline中：
- 确定当前系统的预测准确率。
- 从头开始，对每一步达到100%的准确率（可以使用人工），记录每步修改后，整个系统的准确率（就是确定，如果在这步中花费时间，是否会有不错的改进）。
- 从前面的记录中确定要对哪些步骤花费时间是值得的。
作用：当一个系统的准确路不满足要求时，确定哪一步的缺陷比较大，值的花费时间，改进后效果明显。
相关阅读:
作业7-英文词频统计预备，组合数据类型练习
 作业6-凯撒编码、GDP格式化输出、九九乘法表
 作业5-字符串操作
 作业3-turtle库基础练习
 作业2-Python基础练习
 理解管理信息系统
 Git-git rebase详解
 C语言中基本的数据类型
 读取配置文件的C语言接口实现
 Linux之异步IO机制分析
原文地址：https://www.cnblogs.com/sbaof/p/4145332.html

Copyright © 2020-2023 润新知