• [转]OCR----你不得不知的Tesseract六大重要核心


    转载地址:http://blog.csdn.net/guzhenping/article/details/51035077

    Abstract


    整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男人~~太可怕了!

    这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了Tesseract发展历史,我就略过了,只谈技术相关。

    1. Architecture


    先谈Page Layout Analysis技术,它在OCR领域是个很重要的部分,因为算是文字识别的准备工作。但是,早期的Tesseract没有这项技术,因为HP实验室开发了独立的Page Layout Analysis technology。所以在后期的Tesseract就加入了这项技术。

    没记错,就是Tesseract 3.x系列,但是工作没有完成。Smith是基于制表位探测技术做的页面分析。据Smith说下面在做页面中table的检测,我猜快做完了吧….

    这篇论文里的(旧)Tesseract假设:其数据源是已定义的可选多边形文本域的二进制图片。

    Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined.

    再谈处理过程。分两步: (1)connected component analysis,然后得到Blobs. (2)从Blobs中得到文本行,然后得到固定比例的(fixed pitch)或者成比例的(proportional)文本。

    最后谈识别过程。分两步: (1)通过一个一个地识别单词训练自适应分类器(adaptive classifier),classifer将得到更高的几率能正确识别单词。 (2)识别整个页面。

    2. Line and Word Finding


    概括来说,先找文本行(lines),再找基线(baseline),然后将单词(word)切割成字符(character)。

    细细来讲三点:

    • 找文本行所用的算法参见:《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
    • baseline使用的二次样条曲线(quadratic spline),参考资料:《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
    • 通过固定间距检测(fixed pitch detection),把单词切成字符。对于没有固定间隔的文本,即成比例单词(proportional word),采用计算baseline和mean line之间的空隙垂直范围。

    致歉


    这篇博文在我的草稿箱放了太久,不公布出来就是浪费。但是,目前的内容非常对不起文章标题。按照题目,我还会写:

    • 3 Word Recognition
    • 4 Static Character Classifier
    • 5 Linguistic Analysis
    • 6 Adaptive Classifier

    如果这篇博文反响还不错,我将继续下去。Sorry~Everyone~

    结语


    我还健康的活着,有问题欢迎交流!这里在大牛面前,班门弄斧,实在不好意思哈~欢迎指正!

    有问题可以在我的微信公众号“谷震平的专栏”提出,当天答复。欢迎,扫描下方二维码,回复“Tesseract”,即可得到《An Overview of the Tesseract OCR Engine》(我个人进行了注释、翻译)的阅读链接。

    谷震平的专栏

                          

                         
                    
     
  • 相关阅读:
    Quartz
    WebService
    JavaMail
    安装phpnow服务[Apache_pn]提示失败的解决方法
    idea安装激活
    csdn下载
    java解析json串常识
    Oracle错误——ORA-03113:通信通道的文件结尾
    SSM(Maven集成)
    SpringMVC的拦截器
  • 原文地址:https://www.cnblogs.com/Crysaty/p/6094247.html
Copyright © 2020-2023  润新知