• 机器学习笔记(十一)OCR技术的应用


    1、介绍OCR:

    OCR(Photo optical character recognition 照片光学字符识别)

    应用于读取电子照片中的文字.

    2、算法思路:

    ① 识别文字区域;

    ② 字符切分:

    ③ 识别字符:

    3、Sliding windows(滑动窗):

    (1)在行人检测中的使用:

    ① 由于行人拥有相近的宽高比,算法中可以设置相同的比值,如 80*40. 

    使用监督学习的方法,判定块中是否含有行人.

    ② 在图片中移动滑动窗,每次都进行判断是否含有行人,每次移动若干像素点.

    选的滑动窗尺寸限制了可识别的行人的大小. 可以适当增大滑动窗的尺寸,以识别出更多的行人,但是把图片输入分类器时需要调整回统一的尺寸.

    (2)在OCR中的应用:

    ① 选择训练集:

    ② 找出文字区域:采用不同的灰度表示可能性,白色的可能性最高,灰色的可能性较低. 

    ③ 使用 expansion operator(展开器):

    判断图像中每一个像素点是否在白色像素点的5~10个像素范围之内,若是,则设置为白色.

    ④ 筛选掉过于小的可能文字区域:

    ⑤ 字符分割:训练一个分类器,对两种图片块进行分类,可以分割的块设为 y = 1,否则设置为 y = 0. 若是y = 1,则进行分割,分割过程:把这根竖线看作一维的滑动窗,左右移动判断是否分割成功.

    分类器训练集:

    分割过程:

    ⑥ 使用监督学习识别分割出的字符.

  • 相关阅读:
    %EF%BB%BF问题
    java 性能调优总结
    Mysql 批量数据插入- 插入100万条数据
    中医-常见病-疗法
    windows Oracle 卸载注册表清理脚本
    Redis 关键点剖析
    JPA教程
    Xcode8 iOS10 中权限适配
    textField设置输入文字距左边的距离
    调用手机相册,相册语言选择,
  • 原文地址:https://www.cnblogs.com/orangecyh/p/11775669.html
Copyright © 2020-2023  润新知