机器学习笔记（十一）OCR技术的应用

机器学习笔记（十一）OCR技术的应用

1、介绍OCR：

OCR（Photo optical character recognition 照片光学字符识别）

应用于读取电子照片中的文字.

2、算法思路：

① 识别文字区域；

② 字符切分：

③ 识别字符：

3、Sliding windows（滑动窗）：

（1）在行人检测中的使用：

① 由于行人拥有相近的宽高比，算法中可以设置相同的比值，如 80*40.

使用监督学习的方法，判定块中是否含有行人.

② 在图片中移动滑动窗，每次都进行判断是否含有行人，每次移动若干像素点.

选的滑动窗尺寸限制了可识别的行人的大小. 可以适当增大滑动窗的尺寸，以识别出更多的行人，但是把图片输入分类器时需要调整回统一的尺寸.

（2）在OCR中的应用：

① 选择训练集：

② 找出文字区域：采用不同的灰度表示可能性，白色的可能性最高，灰色的可能性较低.

③ 使用 expansion operator（展开器）：

判断图像中每一个像素点是否在白色像素点的5~10个像素范围之内，若是，则设置为白色.

④ 筛选掉过于小的可能文字区域：

⑤ 字符分割：训练一个分类器，对两种图片块进行分类，可以分割的块设为 y = 1，否则设置为 y = 0. 若是y = 1，则进行分割，分割过程：把这根竖线看作一维的滑动窗，左右移动判断是否分割成功.

分类器训练集：

分割过程：

⑥ 使用监督学习识别分割出的字符.
相关阅读:
%EF%BB%BF问题
 java 性能调优总结
 Mysql 批量数据插入- 插入100万条数据
 中医-常见病-疗法
 windows Oracle 卸载注册表清理脚本
 Redis 关键点剖析
 JPA教程
 Xcode8 iOS10 中权限适配
 textField设置输入文字距左边的距离
 调用手机相册，相册语言选择，
原文地址：https://www.cnblogs.com/orangecyh/p/11775669.html