photo OCR应用
1.介绍:光学字符识别, 图片文字转为可编辑的文字。
2.步骤:(使用管道pipeline )
- 识别出文本区域
- 字符分割
- 单个字符识别
3.识别出文本区域
- 收集长方形的图形作为训练集,表示是否是文字区域,训练算法。
- 在图片中使用长方形(不同大小的)滑动窗口进行扫描,对每个长方形使用训练的算法判读是否有文字,有的话则标记这个区域。
- 扩展文字区域,如果这个像素有文字,则周围10个像素都标记为有文字,方便后面处理。
- 根据实际情况选出复合要去的文字区域
4.字符分割
- 收集长方形的图形作为训练集,表示是否是字符的分割(中间可以画一条线),训练算法。
- 在文本区域图片中使用滑动窗口扫描,对每个长方形使用训练的算法判读是字符的分割,是的话则标记这个区域。
- 划分区域
5.单个字符识别
这个同样使用训练集进行处理。
6.人工合成数据
- 数据曲解
- 添加噪音
注意区别太小的改变不会产生作用,尽量使用区别大的。
7.上限分析Ceiling Analysis
应用在管道pipeline中:
- 确定当前系统的预测准确率。
- 从头开始,对每一步达到100%的准确率(可以使用人工),记录每步修改后,整个系统的准确率(就是确定,如果在这步中花费时间,是否会有不错的改进)。
- 从前面的记录中确定要对哪些步骤花费时间是值得的。
作用:当一个系统的准确路不满足要求时,确定哪一步的缺陷比较大,值的花费时间,改进后效果明显。