转载地址:http://blog.csdn.net/guzhenping/article/details/51035077
Abstract
整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男人~~太可怕了!
这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了Tesseract发展历史,我就略过了,只谈技术相关。
1. Architecture
先谈Page Layout Analysis技术,它在OCR领域是个很重要的部分,因为算是文字识别的准备工作。但是,早期的Tesseract没有这项技术,因为HP实验室开发了独立的Page Layout Analysis technology。所以在后期的Tesseract就加入了这项技术。
没记错,就是Tesseract 3.x系列,但是工作没有完成。Smith是基于制表位探测技术做的页面分析。据Smith说下面在做页面中table的检测,我猜快做完了吧….
这篇论文里的(旧)Tesseract假设:其数据源是已定义的可选多边形文本域的二进制图片。
Tesseract therefore assumes that its input is a binary image with optional polygonal text regions defined.
再谈处理过程。分两步: (1)connected component analysis,然后得到Blobs. (2)从Blobs中得到文本行,然后得到固定比例的(fixed pitch)或者成比例的(proportional)文本。
最后谈识别过程。分两步: (1)通过一个一个地识别单词训练自适应分类器(adaptive classifier),classifer将得到更高的几率能正确识别单词。 (2)识别整个页面。
2. Line and Word Finding
概括来说,先找文本行(lines),再找基线(baseline),然后将单词(word)切割成字符(character)。
细细来讲三点:
- 找文本行所用的算法参见:《A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation》,written by Ray Smith。
- baseline使用的二次样条曲线(quadratic spline),参考资料:《Optical Character Recognition: An Illustrated Guide to the Frontier》,written by S.V. Rice。
- 通过固定间距检测(fixed pitch detection),把单词切成字符。对于没有固定间隔的文本,即成比例单词(proportional word),采用计算baseline和mean line之间的空隙垂直范围。
致歉
这篇博文在我的草稿箱放了太久,不公布出来就是浪费。但是,目前的内容非常对不起文章标题。按照题目,我还会写:
- 3 Word Recognition
- 4 Static Character Classifier
- 5 Linguistic Analysis
- 6 Adaptive Classifier
如果这篇博文反响还不错,我将继续下去。Sorry~Everyone~
结语
我还健康的活着,有问题欢迎交流!这里在大牛面前,班门弄斧,实在不好意思哈~欢迎指正!
有问题可以在我的微信公众号“谷震平的专栏”提出,当天答复。欢迎,扫描下方二维码,回复“Tesseract”,即可得到《An Overview of the Tesseract OCR Engine》(我个人进行了注释、翻译)的阅读链接。
版权声明:本文为博主原创文章,未经博主允许不得转载。