• 关于OCR,一些想法


    OCR一般分为两种:

    1,根据给定的字符特征集合,提取未知字符的特征进行匹配识别;(典型例子:GOCR)

    2,不知道字符特征,但给出提取特征的规则,通过机器学习training来获取某个字符集的特征集,对未知字符进行匹配识别。;(典型例子:tesseract)

    第一种方法简单,在某些场合很高效,但比较局限,字符集不能太大,比如汉字,不可能每个字符都去人工的找特征,只能是用在字符集较小的情况。第二种方法比较通用,可以应用于任何字符集,但是在前期训练的过程中必须人工教导,后期识别过程与第一种方法类似。

    tips:网站验证码可以随机的或正或反或倾斜的字符,现在的OCR都没有考虑对付这种情况,因此maybe是种对付roberts的好方法,当然,英文字符有些字符不能倒,比如U,倒过来就变成n了。所以,最好是汉字吧。活动下脊椎,哈哈。那啥,版权所有,附上本页链接即可随便传用。

    验证码

    汉字验证码

  • 相关阅读:
    Web开发快速上手
    前端概述
    Python语言进阶
    图像和办公文档处理
    网络编程
    进程和线程
    正则表达式
    面向对象进阶
    面向对象
    js 获取指定时间上月26 ,
  • 原文地址:https://www.cnblogs.com/xylc/p/3413881.html
Copyright © 2020-2023  润新知